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一 、 内 容 结构 

本 书 是 《XML 基础 教程 》 的 第 2 版 ,对 第 1 版 的 内 容 进行 了 更 新 ,对 章节 的 先后 顺序 做 
了 调整 ,使 其 更 加 适合 教学 。 全 书 分 为 9 章 。 第 1 章 主要 对 XML 做 了 简单 的 介绍 ,帮助 
读者 对 XML 有 一 个 大 致 的 了 解 。 第 2 章 详细 讲解 规范 的 XML 文件 ,使 读者 认识 到 规范 性 
的 重要 作用 。 第 3 章 主要 讲解 有 效 的 XML 文件 ,特别 重点 讲解 DTD 文件 。 第 4 章 详细 讲 
解 DOM 解析 器 ,特别 对 如 何 使 用 DOM 生成 XML 文件 给 予 较 详细 的 讲解 。 第 5 章 详 细 讲 
解 SAX 解析 器 , 重 扣 体现 SAX 解析 器 的 优势 。 第 6 章 详 细 讲 解 XPath 语言 ,重点 体现 
XPath 在 检索 XML 文件 中 数据 上 的 优势 。 第 7 章 讲解 XML 与 数据 库 , 使 读者 领会 二 者 互 
相 转 化 的 重要 意义 ,并 掌握 如 何 实现 二 者 转换 的 设计 技术 。 第 8 章 讲解 CSS 技术 及 如 何 
使 用 CSS 显示 XML 中 数据 的 细节 。 第 9 章 介 绍 XML Schema 模式 ,讲解 如 何 用 模式 约束 
XML 标记 的 数据 类 型 。 

二 、 本 书 特 色 

。 强调 XML 基础 知识 ; 

。 突出 XML 解析 器 和 Xpath 查询 ; 

。 结合 实例 、 注 重 应 用 。 

本 书 知识 点 明确 ,内 容 衔接 流畅 .通俗 易 懂 , 便 于 教学 和 自学 。 许 多 例题 都 是 经 过 精 
心 考虑 ,所 有 代码 都 测试 通过 。 

三 、 资 源 下 载 

读者 可 登录 清华 大 学 出 版 社 网 站 下 载 本 书 全 部 的 例题 代码 。 

四 、 作 者 简介 

耿 祥 义 ,1995 年 中 国 科 学 技术 大 学 获 理 学 博士 学 位 。1997 年 从 中 山大 学 博士 后 流动 
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站 出 站 。 现 任 大 连 交 通 大 学 教授 。 已 编写 出 版 (Java 设计 模式 》《Java 2 实用 教程 》、 
《Java 课程 设计 》《JSP 实用 教程 》《JSP 程序 设计 ;等 10 余部 教材 。 

张 跃 平 ,现任 大 连 交 通 大 学 讲师 。 已 编号 和 参 编 出 版 (Visual FoxPro 课程 设计 》、 
《Java 2 实用 教程 》《Java 设计 模式 》《JSP 实用 教程 》 和 《Java 课程 设计 )5 部 教材 。 

五 、 交 流 沟 通 

希望 本 教材 能 对 读者 学 习 XML 有 所 帮助 ,并 请 读者 批评 指正 (xygeng0629 @ sina. 


com ) 。 
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主要 内 容 

。 什么 是 XML 

。 XML 文件 的 编辑 与 保存 
。 XML 和 HTML 有 何不 同 
。 XML 解析 器 

。 XML 的 优势 


随 着 网 络 的 迅速 发 展 以 及 规模 的 扩大 ,对 信息 的 规范 性 提出 了 更 加 严格 的 要 求 ， 
XML 就 是 在 这 一 背景 下 诞生 的 一 种 数据 格式 标准 。 

在 学 习 这 门 课程 之 前 读者 应 当初 步 了 解 HTML ,并 有 一 定 的 Java 语言 基础 。 另 外 ， 
需要 强调 的 是 ,由 于 许多 Web 技术 都 和 XML 有 关 , 因 此 本 课程 的 学 习 对 于 进一步 学 习 、 
理解 Web 技术 是 非常 有 帮助 的 。 


1.1 什么 是 XML 


随 着 网 络 的 迅速 发 展 , 万 维 网 联盟 (World Wide Web Consortium,W3C) 认 识 到 信息 
规范 化 的 重要 性 , 即 用 一 种 规范 化 的 格式 来 处 理 信息 ,从 而 可 以 使 得 人 们 更 加 方便 地 交互 
信息 。XML 是 eXtensible Markup Language 的 缩写 ,是 由 万 维 网 联盟 定义 的 一 种 语言 ， 
称 为 可 扩展 标记 语言 。 所 谓 可 扩展 性 是 指 XML 允许 用 户 按 照 XML 规则 自 定 义 标 记 。 

XML 文件 是 由 标记 及 其 所 标记 的 内 容 构 成 的 文本 文件 ,与 HTML 文件 不 同 的 是 ， 
这 些 标记 可 自由 定义 ,其 目的 是 使 得 XML 文件 能 够 很 好 地 体现 数据 的 结构 和 含义 。 
W3C 推出 XML 的 主要 目的 是 使 得 Internet 网 络 上 的 数据 相互 交流 更 方便 ,让 文件 的 内 
容 更 加 通俗 易 懂 。 

以 下 是 一 个 简单 的 XML 文件。 


first. xml 


<?xml] version= "1.0" ?> 
< 和 村 > 
< 姓名 > 张 三 
< 性 别 > 男 </ 性 别 > 
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< 出 生日 期 > 1995/05/15 </ 出 生日 期 > 
</ 姓 名 > 
< 姓名 > 冰花 

< 性 别 > 女 </ 性 别 > 

< 出 生日 期 > 1998/08/08 </ 出 生日 期 > 


</ 姓 名 > 
</ 学 生 > 
尽管 上 述 XML 文件 非常 徐 单 ,但 基本 体现 了 XML 文件 的 基本 结构 ,总 结 如 下 (有 关 
细节 将 在 后 续 草 节 讲 解 ) 。 


。 XML 文件 包含 一 个 XML 声明 ,其 位 置 必须 在 XML 文件 的 首 行 (有 关 XML 声明 
将 在 2. 1 节 详 细 介绍 ) : 


<?xml version= "1.0" ?> 


。 XML 文件 中 包含 有 奎 干 个 标记 ,每 个 标记 由 开始 标签 和 结束 标签 构成 。 

。 XML 文件 有 且 仅 有 一 个 根 标 记 , 其 他 标记 都 必须 封装 在 根 标 记 中 ,文件 的 标记 必 

。 标记 的 开始 标签 和 结束 标签 之 间 的 内 容 称 为 该 标记 所 标记 的 内 容 , 简 称 标记 的 内 

容 。 一 个 标记 的 内 容 中 可 以 包含 文本 或 其 他 的 标记 ,其 中 包含 的 标记 称 为 该 标记 
的 子 标记 。 

上 面 的 XML 文件 的 根 标记 的 开始 标签 是 “二 学 生 二 ”, 结 束 标签 是 “二 /学 生 二 >”, 该 
根 标 记 有 2 个 子 标记 “一 姓名 盖 … 一 /姓名 盖 ”.“ 一 姓名 盖 …< 一 /姓名 盖 ” 的 内 容 既 有 文本 
也 有 子 标记 ,例如 其 中 一 个 标记 “一 姓名 盖 … 一 /姓名 盖 ” 中 的 文本 是 “ 张 三 ”, 子 标记 是 
“过 性 别 二 … 二 /性 别 二 ”和 “二 出 生日 期 二 … 二 /出 生日 期 二 ”。 

XML 文件 必须 符合 一 定 的 语法 规则 (后 续 的 章节 会 详细 地 讲解 XML 的 语法 规则 )， 
只 有 符合 这 些 规则 ,XML 文件 才 可 以 被 XML 解析 器 解析 ,以 便利 用 其 中 的 数据 ,如 图 1.1 
所 示 。 


XML 解析 幽 : 
处 理 XML 文件 
的 应 用 程序 


解析 出 数据 


XML 文件 : 
first.xml 


1995/05/15 


图 1.1 XML 解析 响 


下 面 的 XML 文件 都 是 错误 的 ,其 中 的 “errorOne. xml” 没 有 根 标 记 ,“errorTwo. xml” 
虽然 有 根 标 记 , 但 根 标 记 的 两 个 “节目 ” 子 标记 有 交叉 ,导致 标记 没有 形成 树 形 结构 。 


errorOne. Xml 


< 节目 > 乡村 爱情 

< 播 出 时 间 > 20 时 22 分 </ 播 出 时 间 > 
</ 节 上 有 目 > 
< 节目 > 借 枪 

< 播 出 时 间 > 22 时 38 分 </ 播 出 时 间 > 
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</ 节 目 > 


errorTwo. Xml 


<?Xxml version= "1.0” ?> 
< 国贸 大 厦 > 
< 商品 > 电视 机 
< 价格 > 6368 元 “商品 ”与 “价格 ”标签 出 现 交叉 
</ 商 品 > 
</ 价 格 > 
< 商品 > 手机 
< 价格 > 2678 元 </ 价 格 > 
</ 商 品 > 
</ 国 贸 大 厦 > 


1.2 XML 文件 的 编辑 与 保存 


1. 编辑 与 保存 

XML 文件 是 具有 特殊 扩展 名 (. xml) 的 文本 文件 ,因此 需 使 用 纯 文 本 编辑 需 来 编辑 
XML 文件。 本 书 以 Windows 系统 和 日 带 的 “记事 本 ”做 编辑 条。XML 文件 保存 的 扩展 名 
必须 为 “. xml”, 例 如 “Example. xml”、“hello. xml” 等 。 需 要 特别 注意 是 ,名 字 区 分 大 小 
写 ,hello. xml 和 Hello. xml 是 完全 不 同 的 XML 文件 的 名 字 。 

对 于 初学 者 不 建议 使 用 集成 开发 工具 来 编写 XML 文件 ,尽管 各 种 集成 开发 工具 也 
提供 了 用 于 编辑 XML 文件 的 编辑 器 ,但 同时 也 屏蔽 了 XML 的 许多 知识 点 ,这 非常 不 利 
于 学 习 XML。 在 掌握 了 XML 知识 后 ,具体 开发 项 目 时 ,应 当选 择 一 个 流行 的 、 成 熟 的 集 
成 开发 工具 来 编写 XML 文件 ,这 有 利于 更 好 、 更 快 地 编写 XML 文件 ,例如 XMLSpy 就 
是 非常 优秀 的 XML 集成 开发 工具 。 对 于 已 和 擎 握 XML 知识 的 人 ,学 习 使 用 各 种 集成 开发 
工具 是 没有 任何 困难 的 。 

一 个 XML 文件 应 当 以 XML 声明 作为 文件 内 容 的 第 一 行 , 在 其 前 面 不 能 有 空 日 或 其 
他 的 处 理 指 令 或 注释 。XML 声明 以 “二 ? xml” 标 识 开 始 ,以 “? 二 ”标识 结束 。 注 意 
“二 7?” 和 “xml” 之 间 , 以 及 “?” 和 “二 ”之 间 不 能 有 空格 。 

以 下 是 一 个 最 基本 的 XML 声明 : 


<?xml version= "1.0" ?> 


一 个 简单 的 XML 声明 中 可 以 只 包含 属性 version ,目前 该 属性 的 值 取 1.0(1.1 还 没 
有 正式 公布 ,1.1 增 加 了 一 些 极 少 被 使 用 的 功能 ) ,指出 该 XML 文件 使 用 的 XML 版 本 。 
XML 声明 中 还 可 以 指定 encoding 属性 的 值 ,该 属性 规定 XML 文件 采用 哪 种 字符 集 进 行 
编码 。 例 如 : 


<?xml version= "1.0”encoding= "UTF— 8" ?> 


如 果 在 XML 声明 中 没有 显示 地 指定 encoding 属性 的 值 ,那么 该 属性 的 默认 值 为 UTF-8 
编码 。 如 有 果 encoding 属性 的 值 为 UTF-8,XML 文件 必须 按照 UTF-8 编码 来 保存 ,这 样 
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XML 解析 副 就 会 识别 XML 中 的 标记 并 正确 解析 标记 中 的 内 容 。 

使 用 文本 编辑 融 " 记 事 本 ”编辑 XML 文件 ,在 保存 文件 时 ,必须 将 “保存 类 型 ”选择 为 
“所 有 文件 ”, 将 “编码 ”选择 为 “UTF-8”。 如 果 在 保存 文件 时 ,系统 总 是 给 文件 名 尾 加 上 
“. txt”, 那 么 在 保存 文件 时 可 以 将 文件 名 用 双 引 号 括 起 ,如 图 1.2 所 示 。 


文件 名 四: 
保存 类型) | 所 有 文件 总 
编码 外): 


图 1.2 保存 XML 文件 


2. 如 何 检 查 XML 

XML 的 语法 规则 非常 严格 ,这 一 点 和 HTML 有 很 大 的 不 同 , HTML 本 身 语法 十 分 
不 严格 ,严重 影响 网 络 信息 传送 和 共享 。W3C 吸取 了 HTML 发 展 的 教训 ,对 XML 指定 
了 严格 的 语法 标准 ,例如 ,标记 要 有 一 个 开始 标记 和 结束 标记 .所 有 的 标记 都 必须 合理 藤 
套 , 即 形成 树 形 结构 。 也 就 是 说 XML 文件 必须 符合 一 定 的 语法 规则 ,只 有 符合 这 些 规 
则 ,XML 文件 才 可 以 被 XML 解析 器 解析 ,以 便利 用 其 中 的 数据 。 

XML 文件 分 为 规范 的 XML 文件 和 有 效 的 XML 文件 ,符合 W3C 制定 的 基本 规则 的 
XML 文件 称 为 规范 的 XML 文件 ,规范 的 XML 文件 如 果 再 符合 额外 的 一 些 约束 就 称 为 有 
效 的 XML 文件 。 有 关 XML 的 详细 语法 将 从 第 2 章 开 始 讲 述 。 为 了 检查 XML 文件 是 否 规 
范 , 一 个 简单 的 办 法 就 是 用 浏览 器 ,例如 IE6.0。 打 开 XML 文件 ,如 果 XML 是 规范 的 ,浏览 
右 将 显示 XML 源 文件 ,否则 将 显示 出 错 信 息 。 图 1. 3 显示 了 前 面 第 1.1 节 中 规范 的 XML 
文件 first. xml; 图 1.4 显示 了 前 面 第 1. 1 节 中 不 规范 的 XML 文件 errorOne. xml。 


<?Xm| version="1,0" ?> 


< 性 别 > 男 < 性 别 > 
< 出 生日 期 >1995705715</ 出 生日 期 > 


惧 花 XEL 文档 只 人 能 有 一 个 顶层 元 素 。 处 理 资源 
< 性 别 > 女 <f/ 性 别 > "file: fff/C:f00xzelffirst.xeml” 时 出 鳍 - 
< 出 生日 期 >s1998/08/08</ 出 生日 期 > 


< 姓名 > < 节目 > 借 枪 
<f/ 学 生 > _^ 


图 1.3 打开 规范 的 XML 文件 1.4 打开 不 规范 的 XML 文件 


: 编写 保存 一 个 XML 文件 后 , 养 成 用 浏览 器 检查 XML 文件 是 否 有 语法 错误 的 


1.3 XML 和 HTML 有 何不 同 


尽管 XML 和 HTML 都 是 W3C 定义 的 语言 ,但 二 者 有 很 大 的 不 同 , 曾 述 如 下 。 
1. HTML 的 核心 
HTML 是 用 来 编写 Web 页 的 语言 ( 超 文本 标记 语言 ), HTML 的 核心 是 把 数据 和 数 
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据 的 显示 外 观 捆绑 在 一 起 , 即 HTML 中 的 标记 的 出 发 点 不 是 为 了 体现 数据 的 含义 ,而 是 
体现 数据 的 显示 格式 ,整个 HTML 文件 的 目的 不 是 为 了 组 织 数据 ,而 是 为 了 组 织 某 些 数 
据 的 显示 外 观 。 如 果 某 个 应 用 系统 只 想 使 用 HTML 中 所 包含 的 数据 而 不 需要 它 的 显示 
外 观 , 可 以 想象 ,该 应 用 系统 将 HTML 中 的 数据 和 外 观 分 离 是 多 么 的 困难 。 

男 外 ,HTML 不 允许 用 户 自 定 义 标 记 , 目 前 的 HTML 有 一 百 多 个 标记 。HTML 不 
能 体现 数据 的 组 织 结构 ,只 能 够 描述 数据 的 显示 格式 。 下 面 的 HTML 将 数据 分 别 用 黑 
体 1、 黑体 2 和 黑体 3 来 显示 。 


show. html 


<html> 
<Hl1> 张 小 山 
<H2 > 男 </H2 > 
</H1 > 
<H2> 李 染 花 
<H3> 女 </H3> 
</H2 > 
</html > 


对 于 上 述 HTML 文件 ,一 个 不 认识 汉字 的 外 国人 ,并 不 知道 张 小 山 
“ 张 小 山 ”和 “ 李 浴 花 ” 是 人 的 名 字 。 因 为 HTML 中 的 标记 的 出 发 点 
不 是 为 了 体现 数据 的 含义 ,而 是 为 了 体现 数据 的 显示 格式 ,并 不 体现 ”| 恤 
数据 的 组 织 结构 。 浏 览 器 能 将 HTML 中 标记 “二 Hl 二 … 二 /Hl 二 ”， 李 浴 花 
“一 H2 盖 … 一 /H2 盖 ”和 “一 H3 盖 …</H3 盖 ”所 标记 的 文本 内 容 分 女 
别 用 黑体 1 .黑体 2 和 黑体 3 显示 在 浏览 器 中 ,如 图 1. 5 所 示 。 图 1.5 用 浏览 器 打开 
2. XML 的 核心 HTML 文件 
和 HTML 不 同 的 是 ,XML 的 核心 是 描述 数据 的 组 织 结 构 , 使 
XML 可 以 作为 数据 交换 的 标准 格式 。XML 可 自 定义 标记 ,其 标记 名 称 是 对 所 标记 的 数 
据 内 容 含 义 的 抽象 ,而 不 是 数据 的 显示 格式 ,而 且 XML 文件 通过 其 中 的 标记 来 表示 数据 
的 组 织 结 构 。 例 如 ,下 述 XML 文件 second. xml。 


second. xml 
< Student > 
<name> 张 小 山 
< sex> 男 </sex> 
</name > 


<name> 李 梁 花 
<sex> 女 </sex> 
</name > 
</student > 


对 于 上 述 XML 文件 ,即使 是 一 个 不 认识 汉字 的 外 国人 ,也 很 清楚 地 知道 “ 张 小 山 ”和 
“ 李 欢 花 "是 学 生 的 名 字 ,并 清楚 地 知道 second. xml 中 数据 的 组 织 结 构 。 

XML 非常 关心 数据 的 组 织 结构 ,以 便 XML 解析 器 按照 其 组 织 结构 分 解 出 数据 (有 
关 解 析 器 的 详细 内 容 将 在 4、5 章 讲 述 ) ,XML 本 身 不 提供 数据 的 显示 格式 。 
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XML 有 效 地 分 离 数 据 的 组 织 结构 和 显示 外 观 , 即 不 将 显示 外 观 和 其 中 的 标记 直接 
进行 关联 ,因此 浏览 器 不 能 直接 显示 XML 文件 中 的 标记 的 内 容 。 如 果 需 要 浏览 器 显示 
XML 文件 中 标记 的 内 容 , 就 必须 以 某 种 方式 告诉 浏览 器 如 何 显 示 , 例 如 使 用 层 县 样 式 表 
(CCS) ,如 图 1.6 所 示 ( 显 示 XML 文件 中 标记 的 内 容 的 有 关 知 识 将 在 第 8 章 讲述 ) 。 


图 1.6 XML 文件 关联 负责 显示 数据 的 CSS 


下 面 的 XML 文件 将 上 自己 关联 到 一 个 层 登 样式 表 ,以便 浏 览 硕 能 显示 XML 文件 中 标 
记 的 文本 内 容 。 层 释 样 式 表 中 最 重要 的 组 成 部 分 就 是 样式 表 , 其 作用 是 说 明 XML 文件 中 
的 标记 内 容 用 何 种 方式 来 显示 。 例 如 ,如 果 想 用 黑体 来 显示 XML 文件 中 标记 “二 name 二 …: 
二 /name 记 ”所 标记 的 文本 内 容 , 就 可 以 在 层 著 样式 表 文 件 中 包含 如 下 的 样式 表 : 


name 
{ display:block;font— size:36pt; font— style:normal;font— weight:bold 
} 


该 样式 表 的 作用 是 告知 浏览 需 将 XML 文件 中 标记 ”< 一 name 二 … 一 /name 二 ”所 标记 的 文 
本 内 容 用 黑体 显示 在 一 个 “ 块 区 域 ”* 中 ; 而 


sex 
{ display:line;font— size:12pt; font— style:italic; 
} 


告知 浏览 副将 XML 文件 中 标记 "一 sex 二 … 一 /sex 二 ”所 标记 的 文本 内 容 用 斜体 显示 在 
一 行 中 。 

注意 : 当 使 用 层 登 样式 表 和 XML 关联 时 ,XML 文件 中 的 标记 的 名 字 不 要 含有 非 
ASCII 码 字 符 (例如 ,名 字 中 不 能 有 汉字 )。 

以 下 的 “showXML. css” 是 一 个 简单 的 层 王 样式 表 , 该 文件 可 以 保存 为 编码 为 
“ANSI” 的 文件 或 编码 为 “UTF-8” 的 文件 ,并 和 其 关联 的 XML 文件 存放 在 同一 目录 中 。 


showXML. css 

name 

{ display:block;font— size:18pt;font— weight:bold 
} 

sex 

{ display:line;font— size:16pt;font— style: italic 
} 

birthday 

{ display:line;font— size:9pt;font— weight:bold 

} 


XML 文件 使 用 操作 指令 : 


<?xml — stylesheet ?> 
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关联 到 某 个 层 登 样式 表 , 例 如 : 
<?xml — stylesheet href = "showXML. css" type = "text/css" ?> 


以 下 是 一 个 与 showXML.. css 层 严 样式 表 相 关联 的 XML 文件 three. xml, 用 浏览 需 


打开 three. xml 文件 ,浏览 器 就 会 按照 showXML. css 中 的 样式 表 来 显示 XML 文件 中 标 
记 的 文本 内 容 , 效 果 如 图 1.7 所 示 。 

three. Xml 

<?Xxml version= "1.0” ?> 张 小 山 罗 wsFesans 


李 愉 花 ” 女 199707 有 27 昌 


<?xml — stylesheet href = "showXML. css" type = "text/css" ?> 


< student > 
<| 1.7 CSS 显示 
<name> 张 小 山 图 使 用 显示 


<sex> 男 </sex> XML 中 的 数据 
<birthday> 1995 年 05 月 15 日 </birthday > 

</name > 

<name> 李 避 人 花 
<sex> 女 </sex> 
<birthday> 1997 年 07 月 27 日 </birthday> 

</name > 

</ student > 


注意 : CSS 是 用 于 布局 网 页 外 观 的 技术 ,在 XML 中 经 常会 用 到 CSS 。 


1.4 XML 解析 省 


XML 解析 融 是 XML 和 应 用 程序 之 间 的 一 个 软件 组 织 ,其 目的 是 为 应 用 程序 从 
XML 文件 中 解析 出 所 需要 的 数据 。 例 如 ,应 用 程序 可 能 需要 XML 文件 所 标记 的 商品 价 
格 ,并 对 价格 做 数据 分 析 处 理 。 现 在 普遍 使 用 的 XML 解析 天 都 是 Java 语言 编写 的 ,本 书 
将 采用 这 样 的 解析 人 大, 有关 解 析 融 的 详细 内 容 将 在 4、5 草 讲 述 。 


1.5 XML 的 优势 


XML 作为 表示 结构 化 数据 的 行业 标准 ,已 获得 广泛 的 行业 支持 。XML 在 采用 简 
单 .柔性 的 标准 化 格式 表达 以 及 在 应 用 间 交 换 数据 方面 是 一 个 革命 性 的 进步 。XML 的 
威力 在 于 不 仅 提供 了 直接 在 数据 上 工作 的 通用 方法 ,而 且 将 数据 的 结构 和 显示 相 分 离 , 允 
许 不 同 来 源 数据 的 无 缝 集成 和 对 同一 数据 的 多 种 处 理 。 从 数据 描述 语言 的 角度 看 ,XML 
是 灵活 的 、 可 扩展 的 ,有 良好 的 结构 和 约束 ; 从 数据 处 理 的 角度 看 , 它 足 够 简单 且 易 于 阅 
读 , 几 乎 和 HTML 一 样 易 于 学 习 , 同 时 又 易于 被 应 用 程序 处 理 。 许 多 网 络 应 用 都 在 大 量 
使 用 XML ,XML 已 经 成 为 网 络 应 用 技术 的 基础 。 

通过 本 书 的 进一步 学 习 , 读 者 会 逐步 体会 到 XML 的 优点 。 例 如 ,通过 1. 3 节 的 学 习 
已 经 初步 体会 到 了 XML 是 如 何 将 数据 的 组 织 结构 和 显示 相 分 离 的 ,如 果 想 修改 three. 
xml 的 显示 外 观 , 只 需 修 改 它 所 关联 的 CSS 即 可 。 
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避 题 1 


1. XML 文件 和 HTML 文件 有 何不 同 ? 
2. 如 果 XML 文件 中 的 XML 声明 为 : 


<?xml] version= "1.0” ?> 


XML 文件 应 使 用 怎样 的 编码 保存 ? 
3. 请 登录 http://www. w3c. org 网 站 ,了 解 XML 的 有 关 话 题 。 
4. 请 在 搜索 引擎 中 查询 XML Java, 看 看 能 查 到 哪些 相关 的 话题 。 
5. 下 面 是 一 个 规范 的 XML 文件 ,阅读 该 文件 并 回答 提出 的 问题 。 


schedule. xml 
<?xml version= "1.0" encoding= "UTF—8" ?> 
< 列车 时 刻 表 > 
< 车 次 > 
83 次 
< 始 发 站 > 北京 </ 始 发 站 > 
< 终 到 站 > 大 连 </ 终 到 站 > 
< 始 发 时 间 > 20 时 38 分 </ 始 发 时 间 > 
< 终 到 时 间 > 07 时 16 分 </ 终 到 时 间 > 
</ 车 次 > 
</ 列 车 时 刻 表 > 


(1) 是 否 可 以 将 “一 始 发 站 二 ”更 改 为 "一 始 发 站 二 ”? 
(2) 是 否 可 以 将 “一 始 发 站 盖 ” 更 改 为 “一 始 发 站 二”? 
(3) 是 否 可 以 将 其 中 的 


< 始 发 站 > 北京 </ 始 发 站 > 
更 改 为 : 
< 始 发 站 > 北京 -大 连 </ 终 到 站 > 


请 用 浏览 器 打开 更 改 后 的 schedule. xml 来 验证 你 的 结论 。 
6. 请 参考 1. 3 节 的 内 容 , 为 下 列 XML 文件 time. xml 编写 一 个 显示 标记 中 的 文本 数 
据 的 层 羞 样式 表 showTime. css。 


time. xml 


<?xml version= "1.0” encoding= "UTF— 8" ?> 
<?xnml — stylesheet href = "showTime. css" type = "text/css" ?> 
<root> 
<time > 
北京 时 间 : 
<hour> 12 时 </hour> 
<minute> 56 分 </minute > 
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</time> 
<time > 
格林 尼 治 时 间 : 
<hour> 4 时 </hour > 
<minute> 56 分 </minute> 
</time > 
</root > 


规 沁 的 XML 文件 


主要 内 容 

。 规范 性 

。 XML 声明 

。 标记 

。 CDATA 段 

。 标记 的 文本 数据 

。 属性 

。 注释 

。 名 称 空间 

W3C 吸取 了 当初 HTML 标准 不 严格 的 教训 ,为 XML 制定 了 严格 的 语法 规则 ,使 得 
需要 XML 文件 的 系统 很 容易 开发 出 解析 XML 文件 中 相关 数据 的 “XML 解析 器 ”, 为 信 
息 的 相互 交流 商定 了 语法 保证 。 


2.1 规范 性 


按照 W3C 的 有 关 标 准 ,XML 文件 分 为 规范 的 XML 文件 (Well-Formed XML) 和 有 
效 的 XML 文件 (Validated XML) ,符合 W3C 制定 的 基本 语法 规则 的 XML 文件 称 为 规 
范 的 XML 文件 ,规范 的 XML 文件 如 果 再 符合 额外 的 一 些 约束 就 称 为 有 效 的 XML 文 
件 。 本 章 介绍 规范 的 XML 文件 ,下 一 章 讲 解 有 效 的 XML 文件 。 

一 个 规范 的 XML 文件 应 当 满 足 如 下 语法 规则 : 

。 XML 文件 用 “XML 声明 ?开始 。 

。 XML 文件 有 且 仅 有 一 个 根 标记 。 

XML 文件 的 非 根 标记 都 必须 封装 在 根 标记 中 。 

韭 空 标记 必须 由 “开始 标签 ”与 “结束 标签 ”构成 。 

。 空 标 记 没 有 “开始 标签 "和 “结束 标签 ”。 

。 XML 文件 中 的 全 体 标 记 必 须 形 成 树 形 结 构 , 即 标记 不 允许 出 现 交 叉 。 
图 2. 1 示意 了 一 个 规范 的 XML 文件 的 基本 结构 。 
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图 2.1 规范 的 XML 文件 


2.2 XML 声明 


规范 的 XML 文件 应 当 以 XML 声明 作为 文件 的 第 一 行 ,在 其 前 面 不 能 有 空白 、 其 他 
的 处 理 指令 或 注释 。XML 声明 以 “二 ?xml” 标 识 开 始 , 以 “? 二 ”标识 结束 。 以 下 是 一 个 最 
基本 的 XML 声明 . 


<?xml] version= "1.0" ?> 


W3C 允许 在 编写 XML 文件 时 省 略 XML 声明 ,但 是 如 果 一 个 XML 文件 省 略 XML 
声明 ,各 种 XML 解析 侣 将 默认 该 XML 文件 是 有 XML 声明 的 ,而 且 XML 声明 是 : 


<?xml version= "1.0" encoding = "UTF— 8" ?> 


W3C 在 XML 规范 中 建议 每 个 XML 文件 都 显示 地 写 有 XML 声明 。 
2.2.1 version 属性 


一 个 简单 的 XML 声明 中 可 以 只 包含 属性 version ,目前 该 属性 只 可 以 取 值 1.0, 指 出 
该 XML 文件 使 用 的 XML 版 本 。1. 1 版 本 还 没有 正式 公布 ,而 且 仅仅 增 加 了 一 些 极 少 被 
使 用 的 功能 。 如 果 将 version 属性 设置 为 1. 1, 用 浏览 器 (IE6.0) 打 开 XML 文件 时 ,将 得 
到 XML 版 本 号 设置 错误 的 提示 。 


2.2.2 encoding 属性 


XML 声明 中 也 可 以 指定 encoding 属性 的 值 , 该 属性 规定 XML 文件 采用 哪 种 字符 集 
进行 编码 。 如 果 在 XML 声明 中 没有 指定 encoding 属性 的 值 , 那 么 该 属性 的 默认 值 是 
“UTF-8”。 例 如 : 


<?xml version= "1.0" encoding = "UTF— 8" ?> 


声明 指定 encoding 属性 的 值 是 UTF-8 编码 。 如 果 XML 使 用 UTF-8 编码 ,那么 标记 的 
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名 字 以 及 标记 包含 的 文本 内 容 中 就 可 以 使 用 汉字 、 日 文 、 英 文 等 ,XML 解析 器 就 会 识别 
标记 的 名 字 并 正确 解析 标记 中 的 文本 内 容 。 如 果 encoding 属性 的 值 为 “UTF-8”, XML 
文件 必须 选择 “UTF-8” 编 码 来 保存 ,如 图 2. 2 所 示 。 


文件 名 四 
保存 类 型 [): [所 有 文件 ~ 
编码 到 ): 


图 2.2 encoding 是 UTF-8 时 XML 文件 的 保存 
如 果 在 编写 XML 文件 时 只 使 用 ASCII 字符 和 汉字 ,可 以 将 encoding 属性 的 值 设置 
为 “gb2312”。 例 如 : 


<?xml version= "1.0" encoding = "gb2312" ?> 


这 时 XML 文件 必须 使 用 "ANSI 编码 保存 (如 图 2.3 所 示 ),XML 解析 需 根 据 encoding 
属性 的 值 来 识别 XML 文件 中 的 标记 并 正确 解析 标记 中 的 文本 内 容 。 


文件 名 四 
保存 类 型 区) [所 有 文件 ~ 取消 


sm 
图 2.3 encoding 是 gb2312 时 XML 文件 的 保存 


如 果 在 编写 XML 文件 时 只 使 用 ASCII 字符 ,可 以 将 encoding 属性 的 值 设 置 为 
“ISO-8859-1”。 例 如 : 


<?xml version= "1.0" encoding= " ISO— 8859— 1" ?> 


这 时 XML 文件 必须 使 用 “ANSI” 编 码 保 存 ( 如 图 2. 4 所 示 ),XML 解析 器 根据 encoding 
属性 的 值 来 识别 XML 文件 中 的 标记 并 正确 解析 标记 中 的 文本 内 容 。 


文件 名 @ : 保存 
保存 类 型 [) : [所 有 文件 ~ 取消 
编码 加 ): 


图 2.4 _ encoding 是 ISO-8859-1 时 XML 文件 的 保存 


Unicode 字符 集 由 UNICODE 协会 管理 并 接受 其 技术 上 的 修改 ,最 多 可 以 识别 
65 535 个 字符 ,Unicode 字符 集 的 前 128 个 字符 刚好 是 ASCII 码 表 。Unicode 字符 集 还 
不 能 覆盖 全 部 历史 上 的 文字 ,但 大 部 分 国家 的 “字母 表 ” 的 字母 都 是 Unicode 字符 集中 的 
字符 。 例 如 汉字 中 的 “你 ” 字 就 是 Unicode 字符 集中 的 第 20 320 个 字符 ,一 个 字符 在 
Unicode 字符 集中 的 位 置 也 称 为 该 字符 的 代码 点 。 

XML 文件 默认 地 使 用 UTF-8 编码 ,在 UTF-8 编码 中 ,用 一 个 或 几 个 字 节 来 表示 一 
个 字符 。UTF-8 编码 标准 如 下 : 

。 对 Unicode 字符 集中 代码 点 0 到 127 的 字符 ,UTF-8 将 该 字符 编码 为 1 个 字 节 ， 
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且 高 位 是 0, 也 就 是 说 ,UTF-8 编码 保留 ASCI 字符 的 编码 作为 它 的 一 部 分 。 例 
如 ,在 UTF-8 和 ASCII 中 ,“A” 的 编码 都 是 0x41( 十 进 制 为 65)。 
。 对 Unicode 字符 集中 代码 点 128 到 2047 的 字符 ,UTF-8 用 2 个 字 节 来 编码 , 且 高 
字 节 以 “110” 作 为 前 缀 , 低 字 节 以 “10” 作 为 前 级 。 
。 对 于 Unicode 字符 集中 的 其 他 字符 ,UTF-8 全 用 3 个 字 节 来 编码 ,并 且 这 3 个 字 
节 分 别 用 “1110”“110” 和 “10” 作 为 前 级 。 
我 们 无 须知 道 各 种 编码 的 具体 细节 ,只 需 了 解 特点 即 可 。 例 如 ,对 于 采用 UTF-8 编 
码 的 XML 文件 ,在 存储 它 时 会 多 占用 一 些 空间 (一 个 汉字 需 3 个 字 节 ), 但 UTF-8 编码 
较 好 地 解决 了 国际 化 问题 ,这 一 点 对 于 网 络 上 的 信息 交流 是 非常 重要 的 ,UTF-8 兼容 
GB2312、BIG5 、EUC-JP 等 多 种 国家 的 语言 的 编码 。 
下 面 的 Java 应 用 程序 ,输出 “你 ”代码 点 为 20320) 的 UTF-8 编码 。 
class InputUTF 8 { 
public static void main(String args[]) { 
String sl = "你 ",s2 = "a"; 
try{ byte b[ ] = sl.getBytes("UTF— 8"); 
System. out. print(" 汉 字 \' 你 \' 的 UTE- 8 编码 : "); 
for(int kk=0;k<b.length;k++) { 
String str = Integer. toBinaryString(b[k|); 
str= str. substring(str. length( ) — 8); 
System.out.print(" "+ str ); 
} 


} 
catch( Exception e){} 


} 
上 述 程序 的 输出 结果 是 : 


汉字 ' 你 ' 的 UTF-8 编码 : 11100100 10111101 10100000 


2.2.3 standalone 属性 


在 XML 声明 中 可 以 指定 standalone 属性 的 值 ,该 属性 的 默认 值 是 “no”。 该 属性 可 
以 取 值 *yes” 或 “no”, 以 说 明 XML 文件 是 否 是 完全 自 包 含 的 , 即 是 否 引 用 了 外 部 “实体 ”。 
下 面 的 XML 声明 指定 standalone 属性 的 值 为 "yes”: 


<?xml] version= "1.0" encoding = "UTF— 8" standalone = "yes" ?> 


2.3 标 记 


XML 文件 中 的 标记 分 为 空 标 记 和 非 空 标记 两 种 。 
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2.3.1 空 标记 


1. 语法 格式 

所 谓 空 标记 就 是 不 含有 任何 内 容 的 标记 。 由 于 空 标 记 不 含有 任何 内 容 , 所 以 空 标 记 
不 需要 开始 标签 和 结束 标签 , 它 以 "二 ?标识 开始 ,用 "/ ?标识 结束 ,根据 空 标记 是 否 含有 
属性 , 空 标 记 的 语法 格式 分 别 为 : 

< 空 标记 的 名 称 ”属性 列表 /> 
或 

< 空 标记 的 名 称 /> 
以 下 是 2 个 空 标记 : 


< 张 = age "28" sex = " 田 1 /> 
< water /> 


需要 注意 的 是 ,在 标识 “过 ”和 标记 名 称 之 间 不 要 含有 空格 ,以 下 都 是 错误 的 空 标记 : 
< 张 三 age= "28" sex=" 男 "/> 
< water /> 
在 标识 “/ 二 ”的 前 面 可 以 有 空格 或 回 行 ,以 下 都 是 正确 的 空 标记 : 
< 张 三 age = "24" sex=" 男 " /> 


< water /> 


2. 作用 

由 于 空 标记 不 包含 任何 内 容 , 因 此 在 实际 编写 XML 文件 时 , 空 标记 的 名 称 主 要 用 于 
抽象 带 有 属性 的 数据 ,该 数据 本 身 并 不 需要 用 有 具体 文本 进行 描述 。 例 如 ,XML 需要 描述 
宽 12\ 长 20 的 长 方形 ,但 不 准备 有 任何 关于 长 方形 的 文字 描述 ,那么 就 可 以 使 用 如 下 的 

< 长 方形 width= "12" length= 20 /> 


XML 解析 器 主要 关心 空 标记 中 的 属性 ,并 可 以 解析 出 这 些 属性 的 值 ( 见 第 4、5 章 )。 
2.3.2 非 室 标记 


1. 语法 格式 

韭 空 标 记 必 须 由 “开始 标签 ”与 “结束 标签 ”构成 ,“ 开 始 标 签 ” 与 “结束 标签 ”之 间 是 该 
标记 所 标记 的 内 容 , 称 为 该 标记 的 内 容 。 

开始 标签 以 “二 ”标识 开始 ,用 “二 ”标识 结束 , “二 ”标识 与 “二 ”标识 之 间 是 标记 的 名 称 
和 属性 列表 。 根 据 非 空 标 记 是 否 含有 属性 , 它 的 语法 格式 分 别 为 : 
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< 标记 的 名 称 属性 列表 > 
或 

< 标记 的 名 称 > 

需要 注意 的 是 ,在 标识 “二 ”和 标记 名 称 之 间 不 能 含有 空格 ,人 允许“ 盖 ”的 前 面 有 空格 或 
回 行 。 

结束 标签 以 “二 /” 标 识 开 始 , 用 “二 ”标识 结束 , “二 /” 标 识 与 “二 ”标识 之 间 是 标记 的 名 
称 。 需 要 注意 的 是 ,在 标识 二/” 和 标记 名 称 之 间 不 能 含有 空格 ,允许 “二 ”的 前 面 有 空格 
或 回 行 。 

在 标记 的 “开始 标签 ”与 “结束 标签 ”之 间 是 该 标记 所 包含 的 内 容 ,; 以 下 是 一 个 正确 的 
非 空 标记 : 


<name> 李云龙 </name > 
而 下 面 是 一 个 错误 的 非 空 标记 (“二 ”和 “name” 之 则 有 空格 ): 
< name> 李云龙 </name > 


2. 非 空 标 记 的 内 容 

在 标记 的 “开始 标签 ”与 “结束 标签 ”之 间 是 该 标记 所 包含 的 内 容 , 一 个 标记 所 包含 的 
内 容 可 以 由 两 部 分 构成 : 文本 数据 和 标记 ,其 中 的 标记 称 为 该 标记 的 子 标记 。 

下 面 的 例 1 说 明 标 记 内 容 中 的 文本 数据 和 子 标记 ,为 了 叙述 方便 ,用 符号 "LI" 表示 编 
辑 操 作 所 输入 的 空格 ,“ 用 ”代表 编辑 操作 所 输入 的 回 行 符 。 

【 例 1 


example2 _ 1. xml 
<?xml version= "1.0" encoding= "UTF— 8" ?> 
< student > 和 
<name > 
口 口 口 口 口 口 张大 山 和 
口 口 口 口 口 口 < grade > 
口 口 口 口 口 口 口 口 口 一 年 级 秆 
口 口 口 口 口 口 </grade > 和 
DO</nane > 
</student > 


上 述 example2_1. xml 文件 中 ,标记 “name” 中 的 文本 数据 是 : 


1 
口 口 口 口 口 口 张大 山 


OOOOODON 
OOOOOOT 
国 | 国 


标记 “name” 的 子 标记 是 “grade”, 该 子 标记 “grade” 的 文本 内 容 是 : 
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| 
口 口 口 口 口 口 口 口 口 一 年 级 人 
口 口 口 口 口 口 


请 读者 注意 ,以 下 3 个 标记 所 包含 的 文本 内 容 是 不 同 的 : 


< 名 称 > 和 

口 口 口 口 手 机 时 

</ 名 称 > 必 

< 名 称 > 手 机 全 

</ 名 称 > 必 

< 名 称 > 手 机 </ 名 称 > 
其 中 ， 


< 名 称 > 和 

口 口 口 口 手 机 

</ 名 称 > 
包含 的 文本 内 容 含 有 8 个 字符 ,这 8 个 字符 分 别 是 开始 标记 后 面 的 1 个 回 行 符 、4 个 空 
格 “ 手 机 2 和 1 个 回 行 符 。 


< 名 称 > 手 机 中 
</ 名 称 > 


包含 的 文本 内 容 含 有 3 个 字符 ,这 3 个 字符 分 别 是 开始 标记 后 面 的 “手机 ”和 1 个 回 行 符 。 
< 名 称 > 手 机 </ 名 称 > 


包含 的 文本 内 容 含 有 2 个 字符 ,这 2 个 字符 是 开始 标记 后 面 的 “手机 ”。 
3。 作 用 
非 空 标记 包含 的 内 容 中 既 可 以 有 文本 数据 也 可 以 有 子 标记 , 当 需 要 用 “整体 -部 分 ” 关 
系 来 描述 数据 时 ,就 可 以 使 用 非 空 标记 。 例 如 , “学 生 ” 和 “姓名 ”、“ 学 号 ”之 间 是 “整体 -部 
分 ”关系 ,那么 就 可 以 让 “姓名 “学 号 ”是 “学 生 ” 的 子 标记 ,以 此 表示 “学 生 ” 和 “姓名 ”、“ 学 
号 ”之 间 是 “整体 -部 分 ”关系 , 即 XML 文件 中 有 如 下 结构 的 标记 : 
< 学 生 > 
< 姓名 > 张 三 </ 姓 名 > 
-A1001 </ 学 号 5 
</ 学 生 > 


当 需 要 使 用 文本 来 描述 一 个 数据 时 ,也 需要 使 用 非 空 标记 。 例 如 : 
< 价格 > 129 元 </ 价 格 > 


<ISBN>7— 675— 32591—2</ ISBN> 

XML 解析 帮 既 关心 非 空 标记 包含 的 子 标记 也 关心 它 所 包含 的 文本 内 容 ,并 可 以 解 
析出 它 包含 的 子 标记 和 文本 内 容 ( 见 4、5 章 )。 

需要 特别 注意 的 是 ,下 面 的 标记 : 
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< speak ></speak > 
是 不 包含 任何 内 容 的 非 空 标记 ,或 者 说 是 含有 “\0” 的 非 空 标记 (*“\0” 是 空 字符 ) ,而 
< speak /> 


才 是 真正 的 空 标记 。 
2.3.3 标记 的 名 称 


标记 的 名 称 必须 满足 一 定 的 规则 ,规则 是 名 称 可 以 由 字母 .数字 、 下 划 线 (“_”)、 
点 (“.”) 或 连 字 符 (“”) 组 成 ,但 必须 以 字母 或 下 划 线 开头 。 如 果 XML 文件 使 用 UTF-8 
编码 ,字母 不 仅 包 括 通常 的 拉丁 字母 abc 等 ,也 包括 汉字 .日文 片 假名 及 平 假名 、 绷 鲜 文 
以 及 其 他 许多 语言 中 的 文字 。 标 记名 称 区 分 大 小 写 。 例 如 : 


< name > 张 三 </name > 


< Name > 张 三 </Name> 


是 完全 不 同 的 标记 。 
2.3.4 根 标 记 


XML 文件 必须 有 且 仅 有 一 个 根 标记 ,其 他 标记 都 必须 封装 在 根 标记 中 。XMEL 文件 
中 的 全 体 标 记 必 须 形 成 树 形 结构 。 以 下 是 一 个 不 规范 的 XML 文件 ,标记 未 形成 树 形 结 
构 ,“ 姓 名 ”标记 的 结束 标签 与 “出 生日 期 "标记 的 开始 标签 之 间 形 成 交叉 。 
<root> 
< 姓名 > 张 三 
< 出 生日 期 > 
</ 姓 名 > 
1998 年 12 月 28 日 
</ 出 生日 期 > 


</root > 


2.3.5 标记 的 子孙 关系 


规范 的 XML 文件 有 且 仅 有 一 个 根 标记 ,其 他 标记 都 必须 封装 在 根 标记 中 ,文件 的 标 
记 必 须 是 树 形 结构 。 一 个 标记 的 子 标记 的 子 标 记 称 为 该 标记 的 孙 标 记 。 称 一 个 标记 的 子 
标记 为 该 标记 的 1 级 子 标记 , 孙 标 记 为 该 标记 的 2 级 子 标记 。 本 书 提 到 的 标记 的 “子孙 ” 
标记 泛 指 该 标记 的 所 有 级 别 上 的 子 标记 。 
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2.4 特殊 字符 


XML 有 5 种 字符 属于 特殊 字符 , 左 尖 括号 “二 ”、 右 尖 插 号 “二 ”与 符号 “&.”、 单 引号 
“1 和 双 引 号 “"”。 对 于 这 些 特殊 的 字符 ,XML 有 特殊 的 用 途 , 例 如 标记 的 标签 中 使 用 
左右 尖 括号 。 标 记 的 内 容 可 以 由 两 部 分 构成 : 文本 数据 和 标记 ,按照 W3C 制定 的 规范 ， 
文本 数据 中 不 可 以 含有 这 些 特殊 字符 。 下 列 标记 中 的 文本 内 容 是 非法 的 : 

< 姓名 > 张 & 三 </ 姓名 > 

要 想 在 文本 数据 中 使 用 这 些 特殊 字符 ,办 法 之 一 是 通过 实体 引用 。XML 有 5 种 预定 
义 实 体 ,它们 的 实体 引用 格式 如 下 : 
&lt; 引用 左 尖 括号 “<” 
ggt; 引用 右 尖 括号 “>” 
&apos; 引用 单 引号 “'” 


&quot; 引用 双 引 号 “"” 
&amp; 引用 与 符号 “&” 


解析 需 在 解析 标记 中 的 数据 时 ,实体 引用 将 被 奉 换 为 实体 引用 所 引用 的 实体 ,例如 ， 
“&.amp;” 被 替换 为 字符 “&.”。 
下 列 标 记 中 的 文本 内 容 是 合法 的 : 


< 姓名 > 张 &amp; 三 </ 姓 名 > 
解析 备 解 析出 该 标记 的 文本 数据 是 : 
张 & 三 


2.5 CDATA 段 


标记 内 容 中 的 文本 数据 不 可 以 含有 左 尖 插 号 、 布 尖 插 号 、 与 符号 、 单 引号 和 双 引 号 这 
些 特殊 字符 ,如 果 想 使 用 这 些 字符 ,办 法 之 一 是 通过 使 用 这 些 字 符 的 引用 。 但 是 ,如 果 需 
要 许多 这 样 的 字符 ,文本 数据 中 就 会 出 现 很 多 实体 引用 或 字符 引用 ,导致 文本 数据 的 阅读 
变 得 困难 ,CDATA(Character Data) 段 就 是 为 解决 这 一 问题 而 引入 的 。 
CDATA 段 用 “二 !LCDATAL” 作 为 段 的 开始 ,用 ]] 二 ”作为 段 的 结束 , 段 开始 和 上 段 结 
束 之 间 的 内 容 称 为 CDATA 段 的 内 容 。 解 析 需 不 对 CDATA 段 的 内 容 做 分 析 处 理 , 因 此 
CDATA 段 中 的 内 容 可 以 包含 任意 的 字符 。 但 是 ,W3C 规定 ,CDATA 有 段 中 不 可 以 艇 套 
男 一 个 CDATA 段 。 以 下 是 一 个 正确 的 CDATA 段 : 
<! [CDATA[ 
boolean boo = true&k&false 
< 你 好 > 
] ]> 
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注意 : CDATA 段 的 开始 标识 “一 !LCDATAL?” 以 及 结束 标识 "jj 二 ”中 不 可 以 有 空格 
字符 。 不 可 以 把 CDATA 段 的 开始 标识 “一 !LCDATAL?” 写 成 “一 ![Lcdatal ”。 


2.6 标记 的 文本 数据 


我 们 已 经 知道 ,一 个 标记 包含 的 内 容 可 以 由 两 部 分 构成 : 文本 数据 部 分 和 子 标记 部 
分 。 一 个 标记 包含 的 文本 数据 中 可 以 有 普通 字符 .CDATA 段 和 所 引用 的 特殊 字符 ( 见 
2 .3 

下 面 的 例 2 中 的 example2_2. xml 的 根 标记 “car” 的 子 标记 是 audi”, 子 标记 “audi” 包 
含 的 文本 数据 是 “这 是 一 汽 生 产 的 轿车 ”和 一 个 CDATA 段 。 解 析 顺 在 解析 标记 中 
CDATA 段 时 不 做 分 析 处 理 , 直接 获取 CDATA 段 中 的 内 容 。 

【 例 2】 


example2 2. Xml 


<?xml version= "1.0” encoding= "UTF— 8" ?> 
<car> 

< audi > 这 是 一 汽 生 产 的 轿车 

<! [CDATA[ 
<power >2.8 </power > 
]]> 
</audi > 
</car> 


2.7 属 性 
属性 是 指标 记 的 属性 ,可 以 为 标记 添加 附加 信息 。 


2.7.1 属性 的 构成 


属性 是 一 个 “名 - 值 ” 对 , 即 属性 必须 由 名 字 和 值 组 成 。 属 性 必须 在 非 空 标记 的 开始 标 
签 或 空 标记 中 声明 ,用 “二 "为 属性 指定 一 个 值 。 语 法 如 下 : 


< 标记 名 称 属性 列表 >…</ 标 记名 称 > 
< 标记 名 称 属性 列表 /> 


例如 : 


< 桌子 width= "300" height = "600" length= "1000"> 办 公 专 用 桌 </ 桌 子 > 

<cloud color = "white" /> 

属性 名 字 的 命名 规则 和 标记 的 命名 规则 相同 ,可 以 由 字母 数字、 下 划 线 (“_”)、 
点 人 .2”) 或 连 字 符 (- 史 组 成 ,但 必须 以 字母 或 下 划 线 开头 。 属 性 的 名 字 区 分 大 小 写 。 

属性 值 是 一 个 用 单 引 号 或 双 引 号 括 起 的 字符 串 ,如 果 属 性 值 需 要 包含 左 尖 括号 “二 ”、 
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右 尖 插 号 “ 宝 ”与 符号 “&”、 单 引号 “' ”或 双 引 号 “"”, 就 必须 使 用 字符 引用 或 实体 引用 。 
2.7.2 使 用 属性 的 原则 


属性 不 体现 数据 的 结构 ,只 是 数据 的 附加 信息 。 一 个 信息 是 否 作 为 一 个 标记 的 属性 
或 作为 该 标记 的 子 标记 ,这 取决 于 具体 的 问题 。 一 个 基本 的 原则 是 : 不 要 因为 属性 的 频 
繁 使 用 破坏 XML 的 数据 结构 。 

下 面 例 3 中 的 XML 文件 是 一 个 结构 清晰 的 XML 文件 。 

【 例 3】 


example2 3. xml 
<?Xxml version= "1.0" encoding = "UTF— 8”?> 
<root> 
< 楼 房 height = "23m" length= "56m" width= "12m" > 
< 结构 > 
混 土 结构 


</ 类 别 > 
</ 楼 房 > 


</root > 


如 有 果 把 子 标记 中 的 数据 改 为 父 标记 的 属性 的 值 ,XML 文件 的 结构 就 显得 很 姿 乱 ,如 
下 所 示 : 


<?xml version= "1.0” encoding = "UTF— 8" ?> 
<root> 
< 楼 房 ”height = "23m" length="56m" width="12m” 结构 = " 混 土 结构 ” 
建筑 商 = "华海 建筑 集团 ” 类 别 = "商用 ”> 
</ 楼 房 > 


</root > 


2.8 注 释 


XML 文件 的 注释 和 HTML 文件 相同 ,以 “二 1! 一 一 ”开始 ,以 “一 一 >” 结 束 ,XML 
解析 器 将 忽略 注释 的 内 容 , 不 对 它们 实施 解析 处 理 。 例 如 : 


<?xml version= "1.0” encoding= "UTF— 8" ?> 
<! -- 简单 的 XML 文件 -一 > 
<root> 

<speak> 你 好 </speak > 
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</root > 
需要 注意 的 是 ,注释 不 可 以 在 XML 声明 的 前 面 , 下 面 注释 出 现 的 位 置 是 错误 的 : 
<! -一 简单 的 XML 文件 -一 > 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<root> 

<speak> 你 好 </speak > 
</root > 


2.9 名 称 罕 间 


XML 允许 日 定义 标记 ,那么 不 同 的 XML 文件 以 及 同一 XML 文件 中 就 可 能 出 现 名 字 
相同 的 标记 ,如 果 想 区 分 这 些 标记 ,就 需要 使 用 名 称 空间 。 名 称 空间 的 目的 是 有 效 地 区 分 名 
字 相 同 的 标记 , 当 两 个 标记 的 名 字 相 同时 ,它们 可 以 通过 隶属 不 同 的 名 称 空 间 来 相互 区 分 。 

在 介绍 名 称 空间 之 前 , 先 看 一 个 简单 的 例子 ,下 面 例 4 的 XML 文件 example2_4. xml 
中 有 两 个 标记 的 名 字 都 是 “ 张 三 ”。 

【 例 4】 

example2 4. xml 

<?xml version= "1.0” encoding= "UTF— 8”?> 

< 简历 总 汇 > 

< 张 三 > 1990 年 出 生 , 获得 过 二 等 奖学金 .</ 张 三 > 
< 张 三 > 1991 年 出 生 , 曾 获 得 数学 苑 赛 一 等 奖 .</ 张 三 > 

</ 简 历 总 汇 > 

在 上 述 example2_4. xml 文件 中 有 2 个 标记 有 相同 的 名 字 ”" 张 三 >”。 如 果 解 析 需 在 解 
析 XML 文件 中 的 数据 时 ,只 想 解 析出 其 中 一 个 标记 中 的 数据 ,就 无 法 通过 标记 的 名 称 来 
区 分 这 两 个 标记 。 因 此 当 出 现 名 称 相 同 的 标记 时 ,如 果 系 统 希 望 给 对 区 分 ,XML 文件 中 
就 应 当 使 用 名 称 空间 来 区 分 这 样 的 标记 ,以 便 解 析 器 能 区 分 这 些 名 称 相 同 的 标记 。 

XML 通过 使 用 名 称 空 间 来 区 分 名 字 相 同 的 标记 ,名 称 空间 分 为 有 前 绥 的 名 称 空间 
和 无 前 缀 的 名 称 空间 ,以 下 分 别 给 予 讲解 。 


2.9.1 有 前 缀 和 无 前 缀 的 名 称 空 间 


声明 有 前 级 的 名 称 空间 的 语法 如 下 : 
xmlns: 前 级 = 名称 空间 的 名 字 
例如 : 


xmlns:person= "China. dalian" 


声明 了 一 个 名 字 为 “China. dalian” 的 名 称 空间 。 
无 前 级 的 名 称 空间 声明 语法 如 下 : 
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xmlns = 名 称 空间 的 名 字 
例如 : 


xmlns = "www. yahoo. com" 


注意 : 声明 名 称 空间 时 ,“xmlns” 与 “;: ”以 及 “; ”与 名 称 空间 的 前 组 之 间 不 要 有 空格 。 

称 两 个 名 称 空间 相同 当 且 仅 当 它们 的 名 字 相 同 , 即 检查 声明 的 名 称 空 间 是 否 相 同 只 
需 检 查 所 声明 的 名 称 空 间 的 名 字 是 否 相 同 即 可 。 也 就 是 说 ,对 于 有 前 级 的 名 称 空 间 ,如 果 
两 个 名 称 空间 的 名 字 不 相同 ,即使 它们 的 前 级 相同 ,也 是 不 同 的 名 称 空间 ; 如 果 两 个 名 称 
空间 的 名 字 相 同 ,即使 它们 的 前 级 不 相同 ,也 是 相同 的 名 称 空间 。 名 称 空 间 的 前 级 仅仅 是 
为 了 方便 地 引用 名 称 空间 而 已 ,不 能 用 于 区 分 名 称 空间 是 否 相 同 。 

下 列 是 三 个 不 同 的 名 称 空间 : 

xmlns:north = "liaoning" 


xmlns:north = "Liaoning" 


xmlns:center = "beijing" 
下 列 是 两 个 相同 的 名 称 空 间 ( 名 称 为 apple): 


xmlns:hello = "apple" 
xmlns:ok = "apple" 


注意 :“liaoning” 和 “Liaoning” 是 不 同 的 名 字 , 因 为 名 字 区 分 大 小 写 。 
2.9.2 标记 中 声明 名 称 空间 


名 称 空间 的 声明 必须 在 标记 的 “开始 标签 ”中 ,而 且 名 称 空间 的 声明 必须 放 在 开始 标 
签 中 标记 名 字 的 后 面 。 例 如 : 
< 张 三 xmlns:pl = "liaoning"> 


1986 年 出 生 . 
</ 张 三 > 


2.9.3 名 称 空间 的 作用 域 


标记 如 果 使 用 了 名 称 空间 ,那么 该 名 称 空间 的 作用 域 是 该 标记 及 其 所 有 的 子孙 标记 。 

如 有 果 一 个 标记 中 声明 的 是 有 前 级 的 名 称 空间 ,那么 如 果 该 标记 及 其 子孙 标记 准备 素 
属 该 名 称 空间 ,必须 通过 名 称 空 间 的 前 级 引用 这 个 名 称 空 间 , 使 得 该 标记 隶属 于 这 个 名 称 
空间 。 一 个 标记 通过 在 标记 名 字 的 前 面 添加 名 称 空间 的 前 级 和 冒号 来 引用 名 称 空间 (前 
级 \ 冒 号 和 标记 名 字 之 间 不 要 有 空格 ) ,表明 此 标记 隶属 该 名 称 空 间 。 

在 下 面 的 例 5 的 example2_5. xml 文件 中 有 两 个 标记 的 名 字 都 是 “ 张 三 ”, 有 两 个 标 
记 的 名 字 都 是 “ 张 小 三 ”。 通 过 使 用 名 称 空 间 , 让 一 个 “ 张 三 ” 和 “ 张 小 三 ”隶属 名 字 为 
“Liaoning ”的 名 称 空间 ,让 另 一 个 " 张 三 >? 和 ”* 张 小三 ?隶属 名 字 为 "Beijing ”的 名 称 空间 。 
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【 例 5】 


example2_5. Xml 
<?xml version= "1.0” encoding= "UTF— 8" ?> 
<people> 
<pl: 张 三 xmlns:pl = "Liaoning"> 
1986 年 出 生 , 他 有 一 个 儿子 叫 张 小 三 
< pl : 张 小 三 > 
在 小 学 读书 
</pl: 张 小 三 > 
</pl: 张 三 > 
<p2: 张 三 xmlns:p2 = "Beijing"> 
1982 年 出 生 , 他 有 一 个 儿子 叫 张 小 三 
< p2 : 张 小 三 > 
在 初中 读书 
</p2: 张 小 三 > 
</p2: 张 三 > 
</people> 


如 有 果 一 个 标记 中 声明 的 是 无 前 级 的 名 称 空间 ,那么 该 标记 及 其 子孙 标记 都 默认 地 隶 
属于 这 个 名 称 空间 。 下 面 例 6 中 的 example2_6. xml 文件 中 ,所 有 的 标记 都 隶属 同一 个 
名 字 为 “http://www. tup. com” 的 名 称 空 间 。 

【 例 6】 


example2 0. Xml 


< book xmlns = "http://www. tup. com"> 
< Java> 
Java 基础 教程 (第 3 版 ) 
<author > 耿 祥 义 </author > 
</java> 
< jsSp > 
JSP 基础 教程 (第 2 版 ) 
<author > 耿 祥 义 </author > 
</jsp> 
<xml> 
XML 基础 教程 (第 2 版 ) 
<author > 耿 祥 义 </author > 
</xml > 
</book > 


2.9.4 名 称 空间 的 名 字 


名 称 空间 的 目的 是 有 效 地 区 分 名 字 相 同 的 标记 ,那么 就 涉及 如 何 区 分 名 称 空间 的 名 
字 。W3C 推荐 使 用 统一 资源 标识 符 (Uniform Resource Identifier,URI) 作 为 名 称 空间 的 
名 字 。URI 是 用 来 标识 资源 的 一 个 字符 串 。 一 个 URI 可 以 是 一 个 E-mail 地 址 、 一 个 文 
件 的 绝对 路 径 .一 个 Internet 主机 的 域名 等 。 例 如 : 
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"http: //www. stamp. com" 
"c:\\document\\mybook\\java\\hello. txt" 
"Www. yahoo. com" 


需要 强调 的 是 ,在 XML 中 ,一 个 URI 不 必 是 有 效 的 (不 必 真 实地 存在 这 样 的 资源 )， 


XML 使 用 URI 仅 仅 是 为 了 区 分 名 称 空间 的 名 字 而 已 。 在 实践 中 ,大 多 数 URI 实际 上 就 
用 统一 资源 定位 符 (Uniform Resource Locator ,URL)。 例 如 : 


或 


xmlns = "www. yahoo. com" 
xmlns:p= "http://www. yahoo. com" 


在 浏览 如 的 地 址 栏 中 输入 : 


Www. yahoo. com 


http://www. yahoo. com 


访问 的 是 同一 网 页 。 但 是 ,在 XML 中 


和 


www. yahoo. com 


http://www. yahoo. com 


是 完全 不 同 的 名 称 空间 ,因为 二 者 是 不 同 的 字符 串 。 态 外 ,如 采 在 浏览 右 的 地 址 栏 中 输入 : 


Wwww. aaabbbccc .com 


可 能 会 得 到 “404 File not Found” 错 误 提 示 ,但 在 XML 中 “www. aaabbbccc. com” 可 以 
作为 名 称 空间 的 名 字 。 


站 题 2 


1. 请 阅读 下 列 XML 文件 并 回答 问题 。 


<?xml version= "1.0” encoding = "gb2312" ?> 
<root> 
< Keven.J> 
< 出 生日 期 >1980.12 </ 出 生日 期 > 
< 身高 > 1.78 </ 身 高 > 
</Keven. J> 
</root > 


(1) XML 文件 应 使 用 什么 编码 保存 ? 
(2) XML 文件 使 用 UTF-8 编码 保存 可 以 吗 ? 
(3) 将 其 中 的 encoding 一 "gb2312" 更 改 为 encoding 一 "ISO-8859-1" 合 理 吗 ? 用 浏览 


名 打开 XML 文件 验证 你 的 结论 。 
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2. 标记 
< 出 生日 期 >1980.12</ 出 生日 期 > 
和 


< 出 生日 期 > 
1980. 12 


</ 出 生日 期 > 


所 含有 的 文本 内 容 是 否 相同 ? 
3. 下 列 哪个 是 正确 的 空 标记 ? 


CI 
(2) <a index 一 "97" /一 
(3) < 8a /一 


(4) =a>=/a> 
4. 下 列 哪些 XML 文件 是 规范 的 ? 


Al. xml 


<root> 
<a> abcd 
<b> 1234 
</a> 
XVYZ 
</b> 
</root > 


A2. xml 


<?xml version="1.0" ?> 
<root> 
<hello> How are you </Hello> 
< 你 好 > 早上 好 </ 你 好 b> 


</root > 


A3. xml 


<?xml version= "1.0" ?> 
<root> 
<Hello hi = "How are you"/> 
<Hello></Hello> 
< 你 好 > 早上 好 </ 你 好 > 


</root > 
5. 下 面 XML 文件 中 各 个 标记 包含 的 文本 内 容 是 什么 ? 


<?xml] version= "1.0" ?> 
<root> 
<al > &lt;CCTVS &gt; </al > 
< a2 > 子 日 &auot; 有 朋 自 远方 来 ,不 亦 乐 乎 &quot;</a2 > 


</root > 


有 效 的 XML 文件 


主要 内 容 

有 效 XML 文件 的 定义 
。 如 何 检 查 有 效 性 

。 DTD 中 的 元 素 

。 DTD 的 完整 性 

。 DTD 中 的 属性 约束 列表 
。 内 部 DTD 


XML 的 核心 是 使 用 标记 组 织 数 据 结构 ,以 便 使 信息 的 交互 更 加 方便 。XML 不 仅 语 
法 严格 ,语句 简练 ,而 且 允 许 自 定 义 标 记 , 使 得 它 很 容易 被 使 用 。 在 第 2 草 讲 述 了 如 何 建 
立 一 个 规范 的 XML 文件 ,规范 性 仅仅 是 XML 语言 的 基本 语法 ,没有 对 XML 文件 如 何 
组 织 数 据 结构 进行 具体 的 约束 。 如 果 不 对 XML 文件 如 何 组 织 数 据 给 予 一 定 的 约束 , 那 
么 对 同一 问题 编写 的 XML 文件 ,在 数据 组 织 结构 上 就 可 能 有 很 大 的 不 同 。 下 面 例 1 中 
有 两 个 关于 “商店 营业 时 间 ” 的 XML 文件 : timel. xml 和 time2. xml。 

【 例 1】 


timel. Xml 


<?xml version= "1.0” encoding = "UTF— 8" ?> 
< 商店 营业 时 间 > 
< 商店 > 
< 商店 名 称 > 国 贸 大 厦 </ 商 店名 称 > 
< 营业 时 间 > 08:30 至 18:30 </ 营 业 时 间 > 
</ 商 店 > 
< 商店 > 
< 商店 名 称 > 华 联 商场 </ 商 店名 称 > 
< 营业 时 间 > 07:30 至 22:30 </ 营 业 时 间 > 
</ 商 店 > 
</ 商 店 营业 时 间 > 


time2. Xml 


<?xml version= "1.0” encoding= "UTF— 8" ?> 


< 商店 营业 时 间 > 
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< 商店 > 
< 商店 名 称 > 国 贸 大 厦 </ 商 店名 称 > 
< 开门 时 间 > 08:30 </ 开 门 时 间 > 
< 关门 时 间 > 18:30 </ 关 门 时 间 > 
</ 商 店 > 
< 商店 > 
< 商店 名 称 > 华 联 商场 </ 商 店名 称 > 
< 开门 时 间 > 07:30 </ 开 门 时 间 > 
< 关门 时 间 > 22:30 </ 关 门 时 间 > 
</ 商 店 > 
</ 商 店 营业 时 间 > 


阅读 例 1 中 的 两 个 XML 文件 ,都 会 知道 “国贸 大 厦 ” 和 “ 华 联 商场 ”的 营业 时 间 。 但 
是 对 于 解析 融 , 两 个 文件 的 数据 结构 是 完全 不 同 的 。 对 于 timel. xml, 解 析 需 只 要 解析 出 
“营业 时 间 ” 标 记 中 文本 数据 就 可 以 知道 商店 的 营业 时 间 , 而 对 于 time2. xml, 解 析 需 必须 
分 别 解析 出 “开门 时 间 ” 和 “关门 时 间 ” 标 记 中 的 文本 数据 后 ,才能 知道 商店 的 营业 时 间 。 

某 些 应 用 系统 可 能 对 用 XML 组 织 数 据 有 特殊 要 求 ,例如 ,管理 商店 营业 时 间 的 系统 
可 能 要 求 在 使 用 XML 组 织 商店 营业 时 间 相 关 数 据 时 ,将 商店 的 营业 开始 时 间 和 结束 时 
间 分 别 用 不 同 的 标记 来 描述 (如 例 1 中 的 time2. xml) ,而 不 是 用 一 个 标记 来 描述 (如 例 1 
中 的 timel. xml)。 那 么 如 何 检 查 一 个 XML 文件 是 否 符合 有 关 的 要 求 呢 ? 这 正 是 本 章 要 
介绍 的 内 容 。 


3.1 有 效 XML 文件 的 定义 


针对 某 些 问题 ,需要 对 XML 文件 如 何 组 织 数 据 , 即 数据 结构 ,进行 必要 的 约束 ,以 便 
解析 器 能 更 好 地 解析 其 中 的 数据 。 例 如 ,规定 某 个 标记 必须 有 两 个 子 标记 ,而 某 个 标记 不 
允许 有 子 标记 等 。 对 XML 组 织 数据 进行 约束 的 主要 原因 有 两 个 ,一 是 使 XML 的 数据 组 
织 更 加 合理 ,符合 系统 的 要 求 ; 二 是 便于 维护 XML 中 的 数据 ,从 而 提高 整个 系统 的 可 维 
护 性 。 例 如 ,对 于 例 1 中 的 两 个 XML 文件 ,管理 商店 营业 时 间 的 系统 希望 用 不 同 的 显示 
外 观 来 显示 开门 时 间 和 关门 时 间 , 就 会 要 求 XML 文件 将 营业 的 开始 时 间 和 结束 时 间 分 
别 用 不 同 的 标记 来 描述 。 

对 XML 的 数据 结构 进行 限制 有 两 种 方式 : 使 用 文档 类 型 定义 (Document Type 
Definition ,DTD) 和 XML Schema 模式 。 尽 管 DTD 和 XML Schema 模式 都 可 以 对 XML 
的 数据 结构 进行 限制 ,但 二 者 最 重要 的 区 别 是 XML Schema 模式 是 一 个 特殊 的 XML 文 
件 ,而 DTD 是 有 独自 语法 结构 的 文件 。 对 DTD 的 使 用 要 早 于 XML Schema 模式 ,DTD 
和 XML Schema 模式 各 有 所 长 ,但 XML Schema 模式 比 DTD 更 为 复杂 。 本 章 主 要 讨论 
DTD 文件 以 及 如 何 使 用 它 约束 XML 文件 ,在 第 9 章 将 讲解 XML Schema 模式 。 

什么 叫 一 个 有 效 的 XML 文件 呢 ?” 现 在 我 们 就 给 出 正式 的 定义 : 

一 个 规范 的 XML 文件 如 果 和 某 个 DID 文件 相关 联 , 并 遵守 该 DID 文件 规定 的 约 
束 条 件 ,就 称 为 有 效 的 XML 文件 。 
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3.1.1 和 初 如 DTD 


在 正式 涉及 DTD 的 细节 之 前 , 先 通 过 一 个 简单 的 问题 介绍 如 何 使 用 DTD 文件 来 约 
束 XML 文件 中 的 数据 结构 。 

需要 一 个 刻画 商店 营业 时 间 的 XML 文件 ,但 数据 结构 必须 符合 下 列 要 求 。 

。 根 标记 的 名 称 是 “商店 营业 时 间 ”。 

。 根 标 记 可 以 有 若干 个 名 称 为 “商店 ?的 子 标记 。 

。 名 称 为 “商店 ”的 标记 顺序 地 包含 有 名 称 为 “商店 名 称 ”、“ 开 门 时 间 ” 和 “关门 时 间 ” 

的 子 标记 。 

。 名 称 为 “商店 名 称 ” 的 标记 包含 的 内 容 只 能 是 文本 数据 ,不 能 有 子 标记 。 

。 名 称 为 “开门 时 间 ” 的 标记 包含 的 内 容 只 能 是 文本 数据 ,不 能 有 子 标记 。 

。 名 称 为 “关门 时 间 ” 的 标记 包含 的 内 容 只 能 是 文本 数据 ,不 能 有 子 标记 。 

下 面 简单 介绍 DTD 用 怎样 的 方式 来 约束 一 个 XML 文件 必须 符合 上 述 要 求 。 

DTD 文件 是 有 着 特殊 结构 的 文件 ,简单 地 说 ,DTD 文件 是 由 元 素 所 构成 的 文本 文 
件 。 在 DTD 文件 中 ,用 关键 字 ELEMENT 来 定义 一 个 元 素 ,格式 如 下 : 


<!ELEMENT ”标记 名 称 ”标记 的 约束 条 件 > 

在 DTD 文件 中 ,元 素 的 定义 是 用 “二 IELEMENT” 开 始 , 以 “二 ”结束 。 要 特别 注意 
的 是 , “二 IELEMENT” 中 的 “二 ”“1!1” 和 “ELEMENT” 之 间 不 要 有 空格 字符 。 

DTD 通过 其 中 的 元 素来 限制 XML 文件 中 的 标记 ,例如 ,下 面 的 元 素 : 


<! ELEMENT 商店 营业 时 间 (商店 * ) > 


可 以 约束 XML 文件 中 名 称 为 “商店 营业 时 间 ” 的 标记 只 可 以 有 奋 干 个 名 字 为 “商店 ”的 子 
标记 ,不 可 以 有 任何 其 他 名 称 的 子 标记 。 
下 面 的 元 素 : 


<!ELEMENT 商店 (商店 名 称 , 开 门 时 间 , 关 门 时 间 )> 


可 以 约束 XML 文件 中 名 称 为 "商店 ”的 标记 恰好 顺序 地 有 名 称 分 别 为 “商店 名 称 "“ 开 门 
时 间 ” 和 “关门 时 间 ”3 个 子 标记 ,而 且 约 束 名 称 为 "商店 ”的 标记 包含 的 内 容 中 不 可 以 含有 
可 显示 的 字符 (允许 含有 空格 、 回 行 等 空白 类 字符 )。 

下 列 3 个 元 素 : 

<! ELEMENT 商店 名 称 ( # PCDATA)> 

<! ELEMENT 开门 时 间 (# PCDATA)> 

<! ELEMENT 关门 时 间 ( 革 PCDRATR)> 
分 别 约束 XML 文件 中 名 称 为 “商店 名 称 ”“ 开 门 时 间 ” 和 “关门 时 间 ” 的 标记 所 包含 的 内 
容 只 可 以 是 文本 数据 ,不 可 以 包含 有 子 标记 。 

注意 : 某 些 书籍 将 XML 文件 中 的 标记 也 称 为 元 素 , 本 书 为 了 符合 HITML ,以 及 后 续 
Web 设计 中 的 习惯 用 语 , 没 有 在 XML 文件 中 使 用 元 素 这 一 术语 ,而 是 使 用 了 标记 这 一 术 
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语 。 需 要 特别 提 到 的 是 ,DTD 中 的 元 素 和 XML 文件 中 的 标记 的 语法 格式 有 很 大 的 
不 同 。 


3.1.2 DTD 文 件 的 保存 


DTD 文件 是 由 元 素 构 成 的 文本 文件 , 需 使 用 文本 编辑 器 编写 、 保 存 。DTD 文件 的 扩 
展 名 必须 是 “. dtd”, 在 保存 DTD 文件 时 所 选择 的 编码 必须 和 它 要 约束 的 XML 文件 保持 
一 致 。 例 如 ,DTD 所 要 约束 的 XML 文件 的 编码 为 UTF-8, 那 么 DTD 文件 也 必须 按照 
UTF-8 编码 保存 。 如 果 在 保存 文件 时 ,系统 总 是 自动 地 给 文件 名 尾 加 上 “. txt” ,那么 在 保 
存 文件 时 可 以 将 文件 名 字 用 双 引 号 括 起 ,如 图 3.1 所 示 。 


文件 名 om : 
保存 类 型 I) [所 有 文件 加 取消 
编码 @): 


图 3.1 DTD 文 件 的 保存 


以 下 是 一 个 完整 的 DTD 文件 ,可 以 使 用 它 约束 某 个 XML 文件 ( 见 3. 1. 3 小 节 中 的 
例 2) 。 


limitShop. dtd 


<! ELEMENT 商店 营业 时 间 (商店 * ) > 

<! ELEMENT 商店 (商店 名 称 ,开门 时 间 , 关 门 时 间 )> 
<! ELEMENT 商店 名 称 (# PCDATA)> 

<! ELEMENT 开门 时 间 (#PCDATA)> 

<!ELEMENT 关门 时 间 (站 PCDATA)> 


3.1.3 XML 文 件 与 DTD 文件 相关 联 


一 个 XML 文件 只 有 和 某 个 DTD 文件 相关 联 , 才 会 受到 该 DTD 文件 的 约束 。 如 果 
XML 文件 符合 所 关联 的 DTD 文件 中 元 素 所 给 出 的 约束 ,那么 这 个 XML 文件 就 是 一 个 
有 效 的 XML 文件 。 

在 XML 文件 中 使 用 “文档 类 型 声明 ”使 当前 XML 文件 与 一 个 DTD 文件 相关 联 。 有 
两 种 形式 的 关联 : SYSTEM 和 PUBLIC。SYSTEM 关联 表明 所 关联 的 DTD 文件 由 个 
人 或 工作 小 组 定义 且 认 可 ; PUBLIC 关联 表明 所 关联 的 DTD 文件 已 经 得 到 某 一 领域 的 
认可 ,是 经 过 许多 人 讨论 得 到 认可 的 DTD 文 件 。 

1. SYSTEM 格式 

使 用 SYSTEM 文档 类 型 声明 的 格式 : 


< DOCTYPE 根 标记 的 名 称 SYSTEM "DTD 文件 的 URI"> 


例如 ,一 个 根 标 记名 字 是 “商店 营业 时 间 ” 的 XML 文件 ,通过 在 文件 中 使 用 
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SYSTEM 文档 类 型 声明 : 
<! DOCTYPE 商店 营业 时 间 SYSTEM "limitShop. dtd"> 


和 名 字 是 “limitShop. dtd” 的 DTD 文件 相关 联 。 
2. PUBLIC 格式 
使 用 PUBLIC 文档 类 型 声明 的 格式 : 


<! DOCTYPE 根 标记 的 名 称 PUBLIC "正式 公用 标识 符 ”"DTD 文件 的 URI"> 


例如 ,一 个 根 标记 名 字 是 “商店 营业 时 间 ” 的 XML 文件 ,通过 在 文件 中 使 用 PUBLIC 
文档 类 型 声明 : 


<! DOCTYPE 商店 营业 时 间 PUBLIC "一 //1S0123456/Daxian/ForXML/EN" "limitShop. dtd"> 


和 名 字 是 “limitShop. dtd” 的 DTD 文件 相关 联 。 
在 PUBLIC 文档 类 型 声明 中 ,涉及 所 谓 的 “正式 公用 标识 符 ”(Formal Public Identifier， 


"一 ISO 认证// 单 位 名 称 //DTD 说 明 // 所 用 语言 " 


需要 注意 的 是 ,FPI 中 不 可 以 含有 非 ASCII 码 字 符 ( 例 如 含有 汉字 或 日 文 都 是 不 允许 的 )。 
3. DTD 文件 的 位 置 
SYSTEM 或 PUBLIC 格式 的 文档 类 型 声明 中 提 到 的 : 


"DTD 文件 的 URI" 


必须 是 一 个 有 效 的 资源 , 即 如 果 URI 是 一 个 文件 的 名 字 , 该 DTD 文件 必须 和 当前 XML 
文件 在 同一 目录 中 ; 如 果 URI 是 一 个 URL ,该 URL 必须 是 可 以 访问 的 。URI 是 一 个 有 
效 的 网 络 资源 可 以 使 许多 的 XML 文件 共享 同一 个 DTD 文件 的 约束 。 例 如 , URI 是 
http://www. data. com/ commonFile. dtd( 假 设 这 是 一 个 有 效 的 网 络 资源 ) ,那么 就 可 以 
使 很 多 XML 文件 共享 同一 个 DTD 文件 的 约束 。 

注意 : XML 中 使 用 的 与 DTD 相关 联 的 “文档 类 型 声明 ”一 定 写 在 XML 声明 的 后 
面 ,这 是 因为 XML 声明 必须 写 在 XML 文件 的 最 前 面 。 

以 下 例 2 中 有 一 个 XML 文件 : example3_2. xml, 该 XML 文件 和 3. 1. 2 小节 中 的 
limitShop. dtd 相关 联 ,example3_2. xml 和 limitShop. dtd 保存 在 相同 的 目录 中 (保存 时 
所 选择 的 编码 都 是 UTF-8)。example3_2. xml 的 数据 组 织 结构 满足 limitShop. dtd 文件 
给 出 的 约束 条 件 , 即 该 XML 文件 是 有 效 的 XML 文件 。 

【 例 2】 


example3 2. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 手机 用 户 表 SYSTEM "limitShop. dtd"> 
< 商店 营业 时 间 > 
< 商店 > 
< 商店 名 称 > 西单 商场 </ 商 店名 称 > 
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< 开门 时 间 > 06:30 </ 开 门 时 间 > 
< 关门 时 间 > 23:00 </ 关 门 时 间 > 
</ 商 店 > 
< 商店 > 
< 商店 名 称 > 海 淀 商 厦 </ 商 店名 称 > 
< 开门 时 间 > 07:30 </ 开 门 时 间 > 
< 关门 时 间 > 18:30 </ 关 门 时 间 > 
</ 商 店 > 
</ 商 店 营 业 时 间 > 


3.2 如 何 检查 有 效 性 


当 打 开 一 个 XML 文件 时 ,浏览 锅 的 XML 解析 需 仅 仅 检 查 XML 文件 所 关联 的 DTD 
文件 是 否 有 语法 错误 ,并 不 检查 XML 文件 是 否 遵守 该 DID 规定 的 约束 条 件 , 即 浏览 器 
内 置 的 解析 融 仅 仅 检查 XML 文件 是 否 是 规范 的 ,并 不 检查 XML 的 有 效 性 。 

可 以 使 用 DOM 解析 需 来 检查 一 个 XML 文件 是 否 是 有 效 的 ,有 关 DOM 解析 需 的 内 
容 将 在 第 4 章 详细 讲述 ,以 下 给 出 一 个 简要 的 步骤 说 明 。 

(1) 获取 一 个 DocumentBuilderFactory 对 象 factory: 


DocumentBuilderFactory factory = DocumentBuilderFactory. newInstance( ) ; 

(2) factory 设置 是 否 检 查 XML 文件 的 有 效 性 : 

factory. setValidating(true); 

(3) factory 对 象 调用 方法 newDocumentBuilder() 返 回 DOM 解析 器 : 


DocumentBuilder domParser = factory. newDocumentBuilder(); 


(4) 解析 右 domParser 调用 
public Document parse(File f) throws SAXException, IOException 


方法 解析 XML 文件 。 

解析 器 对 象 domParser 有 一 个 成 员 变 量 , 该 变量 是 ErrorHandler 类 型 的 对 象 。 
domParser 对 象 在 解析 文件 过 程 中 ,每 当 发 现 文件 有 不 满足 DTD 文件 所 给 出 的 约束 时 ， 
就 会 通知 自己 的 ErrorHandler 对 象 调用 相应 的 方法 输出 不 满足 约束 的 有 关 信 息 。 需 要 
注意 的 是 ,即使 XML 文件 不 是 有 效 的 ,也 不 会 影响 parse() 方 法 返回 一 个 Document 对 
象 , 也 就 是 说 只 要 XML 文件 是 规范 的 ,DTD 文件 本 身 没 有 错误 ,domParser 对 象 调 用 
parse() 方 法 终 会 返回 一 个 Document 对 象 。 但 是 , 当 发 生 XML 文件 不 规范 、DTD 文件 
有 语法 错误 、 XML 文件 或 DTD 文件 不 存在 等 "致命 错误 ”时 ,解析 需 将 立刻 停止 解析 文 
件 ,也 就 是 说 parse() 方 法 不 会 返回 一 个 Document 对 象 。 

有 关 DOM 解析 器 将 在 第 4 章 详 细 讲 述 , 这 里 不 要 求 看 懂 解 析 需 的 代码 。 如 果 读 者 
学 习 过 Java 语言 ,只 需 将 下 面 例 3 中 的 TestValidate. java 和 要 被 检查 的 XML 文件 保存 
在 相同 的 目录 中 ,然后 编译 .运行 TestValidate 即 可 。 
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图 3. 2 是 运行 TestValidate 检查 3. 1. 3 小 节 例 2 中 example3_2. xml 有 效 性 的 效 
果 图 。 


‘tchaper3>java TestValidate 
ample3_2. xm 文件 是 有 效 的 


: example3_ 2.xml 


图 3.2 所 检查 的 XML 文件 是 有 效 的 


【 例 3】 


TestValidate. java 


import javax. xml. parsers. x*,，; 

import java. io. 关 ; 

import org.w3c. dom. x* ; 

import java. util. Scanner; 

public class TestValidatef{ 

public static void main(String args[ ] ){ 
String fileName = null; 
try { Scanner reader = new Scanner(SVstem. in); 
System. out. print(" 请 输入 要 验证 有 效 性 的 XML 文件 的 名 字 : "); 
fileName = reader. nextLine( ); 
DocumentBuilderFactory factory = DocumentBuilderFactory. newInstance( ); 
factory. setValidating(true); 
DocumentBuilder builder = factorV. newDocumentBuilder( ); 
MyHandler handler = new MyHandler( ); 
builder. setErrorHandler (handler ); 
Document document = builder. parse(new File(fileName))..; 
if (handler. errorMessage == null) 
System. out. println(fileName + "文件 是 有 效 的 "); 
else 
System. out. println(fileName + "文件 不 是 有 效 的 "); 
} 
catch(Exception e){ 

System. out. println(e); 


} 
class MyHandler extends DefaultHandler!{ 


String errorMessage = null]l; 
public void error(SAXParseException e) throws SAXException{ 
errorMessage = e. getMessage( ) ; 
System. out. println( "一 般 错 误 : " + errorMessage); 
} 
public void fatalError(SAXParseException e) throws SAXExceptionf{ 
errorMessage = e. getMessage( ) ; 
System. out. println( "致命 错误 : " + errorMessage) ; 
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将 例 2 中 的 example3_2. xml 的 某 个 名 称 是 “商店 ”的 标记 增加 一 个 名 称 是 "地理 位 
置 ” 的 子 标记 ,例如 : 
< 商店 > 
< 商店 名 称 > 西 单 商场 </ 商 店名 称 > 
< 开门 时 间 > 06:30 </ 开 门 时 间 > 
< 关门 时 间 > 23:00 </ 关 门 时 间 > 
< 地 理 位 置 > 西单 </ 地 理 位 置 > 
</ 商 店 > 
将 导致 example3 2. xml 不 再 是 有 效 的 XML 文件 ,这 是 因为 DTD 文件 约束 名 字 为 “ 商 
店 ” 的 标记 恰好 顺序 地 有 名 称 分 别 为 “商店 名 称 ”、“ 开 门 时 间 ” 和 “关门 时 间 ”3 个 子 标记 ， 
除 此 之 外 不 能 再 包含 其 他 子 标记 。 用 TestValidate 检查 更 改 后 的 example3_2. xml ,解析 
右 指 出 了 XML 未 遵守 DTD 文件 给 出 的 约束 ,效果 如 图 3. 3 所 示 。 
首 并 :Element type“ 地 理 位 首 ”must be declared. 


: The content of element type “商店 ”must match“ (商店 名 称 , 开门 时 间 , 关门 时 间 )”. 
ample3_2. xm1 廊 件 不 是 有 效 的 


图 3.3 所 检查 的 XML 文件 不 是 有 效 的 


注意 : 如 果 XML 不 是 规范 的 ,TestValidate 将 直接 通知 “致命 错误 ”, 不 再 去 检查 有 
效 性 。 


3.3 DTD 中 的 元 素 


DTD 文件 使 用 元 素 (ELEMENT) 来 约束 XML 文件 中 的 标记 ,在 DTD 文件 中 使 用 
ELEMENT 定义 一 个 元 素 ,格式 为 : 

<! ELEMENT 标记 名 称 ”标记 的 约束 条 件 > 
元 素 用 “二 1ELEMENT” 开 始 , 以 “二 ”结束 ,要 特别 注意 的 是 ,“ 二 I1ELEMENT” 中 的 
“一 ”“1” 和 “ELEMENT” 之 间 不 要 有 空格 字符 。 例 如 ,元 素 : 

<! ELEMENT 学 生 (学 号 ,姓名 ) > 
约束 “学 生 ” 标 记 恰好 有 “学 号 ”和 “姓名 ”2 个 子 标记 ,而 且 这 2 个 子 标 记 在 “学 生 ” 标 记 中 
出 现 的 顺序 必须 是 “学 号 ”“ 姓 名 ”, 而 不 是 “姓名”、“ 学 号 ”。 

特别 需要 强调 以 下 两 点 : 

。 DTD 文件 中 的 元 素 的 作用 与 其 在 DTD 文件 中 的 书写 位 置 无 关 。 

。 DTD 文件 中 不 允许 使 用 多 个 元 素 约 束 同 一 个 标记 。 


3.3.1 约束 标记 只 包含 文本 数据 


如 果 约 束 一 个 标记 没有 子 标记 ,也 就 是 说 约束 标记 只 能 包含 文本 数据 ,那么 元 素 格式 
中 的 
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标记 的 约束 条 件 
是 用 小 括号 括 起 的 #PCDATA, 即 元 素 格 式 如 下 : 

<!ELEMENT 标记 名称 (并 PCDRTR) > 
元 素 中 的 关键 字 “#PCDATA” 约 束 标 记 只 可 以 包含 有 文本 数据 ,其 文本 数据 中 可 以 有 普 
通 字 符 .PCDATA 段 和 实体 引用 。 

当 元 素 使 用 # PCDATA 约束 一 个 标记 时 ,该 标记 所 包含 的 文本 数据 也 可 以 是 一 个 空 
字符 ,甚至 该 标记 可 以 是 一 个 空 标记 。 例 如 ,对 于 : 


<!ELEMENT 姓名 ( 牙 PCDATA) > 
下 列 3 个 名 称 是 “姓名 ”的 标记 都 是 符合 约束 条 件 的 标记 : 


< 姓名 > 张 三 </ 姓 名 > 
< 姓名 ></ 姓 名 > 
< 姓名 /> 


< 姓名 > 李 球 
< Sex> 男 </sex> 


</ 姓 名 > 
是 不 符合 约束 条 件 的 标记 ,其 原因 是 该 “姓名 ”标记 包含 sex 子 标记 。 


3.3.2 约束 标记 的 了 于 标记 


1. 元 素 的 格式 

耕 要 约束 XML 文件 中 某 个 标记 可 以 有 怎样 的 子 标 记 , 例 如 ,标记 必须 有 哪些 子 标 
记 , 子 标记 是 否 人 允许 重 复出 现 .出 现 的 顺序 如 何等 ,那么 DTD 中 元 素 格式 中 的 

标记 的 约束 条 件 
是 用 小 插 号 括 起 的 子 标 记 列 表 , 即 元 素 格 式 为 : 

<!ELEMENT 标记 名 称 ( 子 标记 列表 ) > 
格式 中 的 

( 子 标记 列表 ) 
是 用 有 逗号 分 隔 列 出 的 和 若干 个 标记 。 

我 们 已 经 知道 ,XML 文件 中 的 标记 可 以 含有 文本 数据 和 子 标记 ,如 果 在 DTD 文件 
中 使 用 具有 上 述 约束 条 件 的 元 素 ,这样 的 元 素 将 约束 XML 文件 中 相应 的 标记 只 可 以 有 
子 标记 ,不 可 以 含有 能 显示 的 文本 数据 , 即 文 本 数据 仅仅 可 以 由 空白 类 Qt\n\x0B\fN7) 字 
符 所 组 成 。 

例如 ,元 素 : 
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<! ELEMENT 开学 时 间 (year, month, day) > 


约束 标记 “开学 时 间 ” 恰 好 有 3 个 子 标 记 : year、month 和 day, 不 可 以 包含 能 显示 的 文本 
数据 ,并 且 这 3 个子 标记 在 "开学 时 间 ” 标 记 中 出 现 的 顺序 必须 是 year、month 和 day。 
下 列 “ 开 学 时 间 ” 标 记 是 符合 约束 的 标记 : 
< 开学 时 间 > 
<year> 2010 </year > 


<month> 09 </month > 
<day> 01 </day> 


</ 开 学 时 间 > 
下 列 “ 开 学 时 间 ” 标 记 是 不 符合 约束 的 标记 (原因 是 子 标记 的 顺序 不 满足 约束 条 件 ): 
< 开学 时 间 > 


<month> 09 </month > 
<year> 2010 < year > 
< day> 01 </day > 
下 列 “ 开 学 时 间 ” 标 记 也 是 不 符合 约束 的 标记 (原因 是 含有 可 显示 的 文本 “清华 
大 学 ”): 
< 开学 时 间 > 清华 大 学 
< year> 2010 </year > 
<month> 09 </month > 
<day> 01 </day > 
</ 开 学 时 间 > 
2. 模式 限定 符 的 使 用 
元 素 格式 : 
<!ELEMENT 标记 名 称 ( 子 标 记 列 表 ) > 
中 的 
( 子 标记 列表 ) 
的 每 个 子 标记 的 后 面 可 以 尾 加 模式 限定 符号 来 约束 该 子 标记 出 现 的 次 数 , 不 尾 加 限定 符 
号 的 子 标 记 必 须 出 现 且 只 能 出 现 一 次 。 限 定 符 号 有 如 下 3 种 。 
十 : 尾 加 该 限定 符号 的 子 标 记 必 须 出 现 一 次 或 多 次 。 
* : 尾 加 该 限定 符号 的 子 标记 可 出 现 零 次 或 多 次 。 
? : 尾 加 该 限定 符号 的 子 标 记 可 出 现 堆 次 或 一 次 。 
例如 : 
<!ELEMENT 库存 商品 (商品 名 称 + ,管理 员 ?) > 
约束 标记 * 库 存 商品 ”首先 顺序 地 有 几 个 名 字 为 "商品 名 称 ” 的 子 标记 ,然后 再 顺序 地 有 有 堆 
个 或 一 个 名 字 为 "管理 员 的 子 标记 。 
( 子 标记 列表 ) 
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中 的 子 标记 也 可 以 是 几 个 标记 的 “或 运算 ,而 且 “ 或 运算 ”必须 用 小 插 号 括 起 。 例 如 ， 
元 素 : 


<!ELEMENT 应 聘 者 (姓名 ,( 本 科 | 硕 士 | 博士 ), 性 别 ) > 


约束 “应 聘 者 ”标记 必须 顺序 地 有 3 个 子 标记 : 第 一 个 是 “姓名 ? 子 标记 ,第 二 个 是 本科”、 
“人 硕士 "或 “博士 " 子 标记 ,第 三 个 是 “性 别 ” 子 标记 。 元 系 : 


<! ELEMENT 学 生 ” (姓名, (奖励 | 处 分 ) * ,性别 ) > 


约束 "学 生 ” 标 记 顺 序 地 有 和 若干 个 子 标 记 : 第 一 个 是 “姓名 ” 子 标记 ,然后 是 多 个 (包括 零 
个 )“ 奖 励 ” 或 “处 分 ” 子 标记 ,最 后 一 个 是 “性 别 ” 子 标记 。 

以 下 例 4 中 的 example3_4. xml 是 一 个 有 效 的 XML 文件 , 它 关 联 的 DTD 文件 是 
fourDTD. dtd。 例 4 中 的 XML 文件 和 DTD 文件 都 按照 UTF-8 编码 保存 。 

【 例 4】 


fourDTD. dtd 


<! ELEMENT 应 聘 信 息 (应 聘 者 * ) > 

<! ELEMENT 应 聘 者 (姓名 ,( 本 科 | 硕 士 | 博 士 ) (奖励 | 处 分 ) *, (性 别 ) ) > 
<! ELEMENT 姓名 ( 井 PCDRTR) > 

<! ELEMENT 本 科 ( 共 PCDATA) > 

<! ELEMENT 硕士 (站 PCDATA) > 

<! ELEMENT 博士 ( #PCDATA) > 

<! ELEMENT 奖励 ( 站 PCDATA) > 

<! ELEMENT 处 分 ( 井 PCDRTR) > 

<! ELEMENT 性 别 ( 共 PCDATA) > 


example3 4. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 应 聘 信 息 SYSTEM "fourDTD. dtd"> 
< 应 聘 信息 > 
< 应 聘 者 > 
< 姓名 > 张 三 </ 姓 名 > 
< 硕士 > 湖南 大 学 计算 机 理学 硕士 </ 人 硕士 > 
< 奖励 > 获得 计算 机 竞赛 一 等 奖 一 次 </ 奖 励 > 
< 奖励 > 获得 三 次 一 等 奖学金 </ 奖励 > 
< 处 分 > 被 警告 处 分 一 次 </ 处 分 > 
< 性 别 > 男 </ 性 别 > 
</ 应 聘 者 > 
< 应 聘 者 > 
< 姓名 > 李 染 花 。”</ 姓 名 > 
< 博士 > 武汉 大 学 自动 化 专业 工学 博士 </ 博 士 > 
< 奖励 > 获得 五 次 一 等 奖学金 </ 奖 励 > 
< 性 别 > 女 </ 性 别 > 
</ 应 聘 者 > 
< 应 聘 者 > 
< 姓名 > 王 娟 娟 </ 姓名 > 
< 本 科 > 吉林 大 学 中 文系 文学 学 士 </ 本 科 > 
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< 性 别 > 女 </ 性 别 > 
</ 应 聘 者 > 
</ 应 聘 信 息 > 


3.3.3 约束 标记 的 混合 内 容 


一 个 标记 包含 的 内 容 可 以 由 两 部 分 构成 : 文本 数据 和 标记 ,其 中 的 标记 称 为 该 标记 
的 子 标记 。 在 3. 3. 2 小 节 已 经 讲述 了 如 何 使 用 DID 约束 标记 的 子 标记 ,例如 ,元 素 : 


<! ELEMENT 开学 时 间 (year, month, day) > 


约束 标记 “开学 时 间 ” 恰 好 包含 3 个 子 标记 year .month 和 day ,不 可 以 包含 能 显示 的 文本 
数据 。 

如 果 允 许 标 记 的 内 容 既 可 以 包含 可 显示 的 文本 数据 ,也 可 以 包含 子 标记 ,那么 元 素 
格式 : 


<!ELEMENT 标记 名 称 ”标记 的 约束 条 件 > 
中 的 
标记 的 约束 条 件 


是 关键 字 “ # PCDATA” 和 硅 干 个 子 标记 的 “或 运算 ”, 而 且 该 ^ 或 运算 ”必须 用 小 括号 括 起 
并 尾 加 一 个 “x ”号 , 即 元 素 格式 如 下 : 


<! ELEMENT 标记 名 称 (#PCDATA| 子 标记 1| 子 标记 2… | 子 标记 m) * > 


需要 特别 注意 的 是 , “标记 的 约束 条 件 ” 必 须 用 x ”符号 结尾 ,以 下 给 出 几 种 常见 的 错 
误 写 法 及 错误 的 原因 。 


(#PCDATA| 子 标记 1| 子 标记 2… | 子 标记 m) 
是 错误 的 ,其 原因 是 未 用 ”* "字符 结尾 。 

( 井 PCDRTR| 子 标记 1| 子 标记 2… | 子 标记 m) + 
是 错误 的 ,其 原因 是 使 用 “十 字符 结尾 。 

(#PCDATA| 子 标记 1| 子 标记 2… | 子 标记 m)? 


是 错误 的 ,其 原因 是 使 用 ?字符 结尾 。 
男 外 ,“ 标 记 的 约束 条 件 ” 也 不 可 以 错误 地 写成 : 


( 并 PCDATA, 子 标 记 1 子 标记 2, 子 标记 m) 
错误 原因 是 “ 子 标 记 列 表 ” 不 能 有 “# PCDATA” 分 项 ,例如 : 
<!IELEMENT T28 次 (#PCDATA, hour,minute) > 


是 错误 的 元 素 定 义 。 
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DTD 文件 对 XML 文件 中 标记 包含 的 混合 内 容 进 行 约束 的 元 素 只 能 约束 标记 包含 
的 内 容 可 以 有 能 显示 的 文本 数据 和 子 标 记 , 其 中 可 显示 的 文本 数据 可 以 出 现 也 可 以 不 出 
现 , 子 标记 可 以 出 现 零 次 或 多 次 。 约 束 标记 的 混合 内 容 的 元 素 的 缺点 是 ,只 能 约束 该 标记 
可 以 有 哪些 子 标记 ,不 能 约束 这 些 子 标记 出 现 的 次 数 和 出 现 的 顺序 。 另 外 ,约束 条 件 中 也 
不 能 使 用 限制 符号 ,下 面 的 写法 是 错误 的 : 


(##PCDATA| 子 标记 1+ | 子 标记 2* … | 子 标记 ?) 


约束 标记 中 包含 的 混合 内 容 的 元 素 相 对 其 他 元 素 的 格式 要 复杂 些 , 而 且 约束 能 力 有 
限 。 一 般 不 提倡 标记 包含 的 内 容 中 既 有 可 显示 的 文本 内 容 又 有 子 标记 ,其 主要 原因 就 是 
因为 不 好 给 出 约束 条 件 。 

在 下 面 的 例 5 中 ,DTD 文件 “fiveDTD. dtd” 使 用 了 约束 标记 的 混合 内 容 的 元 素 。 例 
5 中 的 XML 文件 和 DTD 文件 都 按照 UTF-8 编码 保存 。 

【 例 5】 


fiveDTD. dtd 

<! ELEMENT 学 生 列 表 (姓名 * ) > 
<!ELEMENT 姓名  ( 井 PCDRATR| 出 生日 期 | 性 别 ) * > 
<!ELEMENT 出 生日 期 ( 直 PCDRATR) > 

<! ELEMENT 性 别 ( 井 PCDRTR) > 


example3 S$. Xml 
<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 学 生 列 表 PUBLIC "一 //1S088//school//ForXML/Ch" "fiveDTD. dtd"> 
< 学 生 列 表 > 
< 姓名 > 张 三 
< 出 生日 期 > 1993- 12 - 12 </ 出 生日 期 > 
< 性 别 > 男 </ 性 别 > 
</ 姓 名 > 
< 姓名 > 孙 潜 人 花 
< 出 生日 期 > 1992 -01-31 </ 出 生日 期 > 
< 性 别 > 女 </ 性 别 > 
</ 姓 名 > 
</ 学 生 列表 > 


3.3.4 EMPTY 和 ANY 


若 要 约束 一 个 标记 是 空 标记 ,或 者 是 只 含有 空 字符 的 非 空 标记 ,元 素 的 “标记 的 约束 
条 件 ” 可 以 是 关键 字 EMPTY; 知 对 一 个 标记 没有 任何 约束 ,元 素 的 “标记 的 约束 条 件 ? 可 
以 是 关键 字 ANY。 

例如 ,对 于 元 素 : 


<! ELEMENT speak EMPTY > 
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下 列 两 个 标记 都 是 符合 约束 条 件 的 标记 : 


< speak /> 
< speak ></speak > 


对 于 元 素 : 
<! ELEMENT hello ANY > 
下 列 两 个 标记 也 都 是 符合 约束 条 件 的 标记 : 


<hello> how are you </hello> 
<hello> 
< english> how are you </english> 
< chinese> 你 好 </chinese > 
</hello> 


3.4 DTD 的 完整 性 


一 个 DTD 文件 必须 是 完整 的 , 即 必须 满足 下 列 两 个 条 件 。 

1. 不 允许 无 穷 典 套 

如 果 一 个 元 素 约束 某 个 标记 可 以 出 现 某 个 子 标 记 , 那 么 对 该 子 标记 进行 约束 的 元 素 
就 不 能 约束 该 标记 的 子 标记 是 它 的 父 标记 。 例 如 ,一 个 DTD 文件 中 同时 出 现下 列 两 个 
元 素 是 不 允许 的 : 

<! ELEMENT 学 生 (姓名 ,性 别 ) > 

<! ELEMENT 姓名 (学生, 拼音 ) > 

2. 标记 必须 有 元 素 对 其 进行 约束 

XML 文件 中 的 每 个 标记 都 必须 在 DID 中 有 相应 元 素 对 其 进行 约束 ,例如 下 列 DID 
文件 nocomplete. dtd 是 不 完整 的 ,因为 nocomplete. dtd 中 没有 约束 “开门 时 间 ” 和 “关门 
时 间 ” 标 记 的 元 素 。 


nocomplete. dtd 


<! ELEMENT 商店 营业 时 间 (商店 * ) > 
<! ELEMENT 商店 (商店 名 称 , 开门 时 间 , 关 门 时 间 )> 
<! ELEMENT 商店 名 称 (车 PCDRTR)> 


3.5 DTD 中 的 属性 约束 列表 


我 们 已 经 知道 ,XML 文件 中 的 标记 可 以 附带 属性 ,标记 附带 属性 的 目的 是 为 该 标记 
添加 附加 信息 。 标 记 的 属性 是 一 个 “名 - 值 ” 对 , 即 属性 必须 由 名 字 和 值 组 成 。 属 性 必须 在 
非 空 标记 的 开始 标签 或 空 标记 中 声明 ,用 "= 为 属性 指定 一 个 值 。 例 如 ,下 列 名 字 为 "长 
方 体 ”的 空 标 记 有 三 个 属性 : 
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< 长 方 体 length= "1000" width= "300" height = "600" /> 


一 个 信息 是 否 作为 一 个 标记 的 属性 或 该 标记 的 子 标记 ,这 取决 于 具体 的 问题 。 一 个 
基本 的 原则 是 不 要 因为 属性 的 频繁 使 用 破坏 XML 的 数据 结构 。 


3.5.1 ATTLIST 属性 约束 列表 


在 3. 4 节 讲 解 了 如 何 使 用 元 素 约束 XML 文件 中 的 标记 ,同样 ,可 以 通过 在 DTD 文 
件 中 定义 属性 约束 列表 来 约束 XML 文件 中 的 标记 的 属性 。 

DTD 使 用 关键 字 ATTLIST 定义 一 个 属性 约束 列表 来 约束 XML 文件 中 标记 的 属 
性 ,在 DTD 中 定义 属性 约束 列表 的 格式 为 : 

<! RATTLIST 标记 和 名称 


属性 名 称 属性 类 型 默认 值 情况 
属性 名 称 属性 类 型 默认 值 情况 


> 


属性 约束 列表 用 “二 1ATTLIST” 开 始 ,以 “二 ”结束 ,用 来 约束 标记 中 可 以 有 哪些 属性 
以 及 属性 值 类 型 ,要 特别 注意 的 是 “二 !1ATTLIST” 中 的 “二 ”“1” 和 “ATTLIST” 之 间 不 
要 有 空格 字符 。ATTLIST 定义 的 属性 约束 列表 被 习惯 地 称 为 ATTLIST 属性 约束 
列表 。 

例如 ,下 列 ATTLIST 属性 约束 列表 : 

<! ATTLIST 教室 


width CDATA "0" 


length CDATA "0" 
> 


约束 XML 文件 中 名 称 为 “教室 ”的 标记 有 2 个 属性 : width 和 length, 这 2 个 属性 的 类 型 
是 CDATA ,属性 的 默认 值 都 是 字符 串 "0”。 下 列 ATTLIST 属性 约束 列表 : 


<!ATTLIST 姓名 ”性别 ”CDATA" 男 "> 


约束 XML 文件 中 名 称 为 “姓名 ”的 标记 有 一 个 名 称 为 “性 别 ” 的 属性 ,该 属性 的 类 型 是 
CDATA, 属 性 的 默认 值 是 字符 串 “ 男 ”。 

注意 : 为 了 保证 DTD 文件 的 完整 性 ,标记 的 每 个 属性 在 DTD 文件 中 都 必须 有 相应 
的 ATTLIST 属性 约束 列表 给 予 约束 。 

后 面 的 小 节 将 详细 讲解 如 何 使 用 ATTLIST 属性 约束 列表 来 约束 XML 文件 中 标记 
的 属性 。 在 进入 讨论 ATTLIST 属性 约束 列表 的 细节 之 前 , 先 让 我 们 看 一 个 简单 的 例子 。 

下 面 例 6 中 的 XML 文件 是 有 效 的 XML 文件 , DTD 文件 sixDTD. dtd 使 用 
ATTLIST 属性 约束 列表 约束 XML 文件 中 名 称 为 “教室 ”的 标记 一 定 有 名 称 为 length 和 
width 的 属性 。 例 6 中 的 XML 文件 和 DTD 文件 按照 UTF-8 编码 保存 在 同一 个 目录 中 。 
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【 例 6】 
sixDTD. dtd 


<! ELEMENT 教学 楼 (教室 * ) > 

<! ELEMENT 教室 (号 人 码 , 用 途 ) > 

<! ELEMENT 号 码 ( 划 aPCDRTR) > 

<! ELEMENT 用 途 (站 PCDRTR) > 

<! ATTLIST 教室 width CDATA "8m"> 
<! ATTLIST 教室 length CDATA "15m"> 


example3 0. Xml 


<?xml version= "1.0”encoding= "UTF— 8" ?> 
<! DOCTYPE 教学 楼 SYSTEM "sixDTD. dtd"> 


< 教学 楼 > 
< 教室 > 
< 号 码 > A101 </ 号 码 > 
< 用 途 > 自 习 室 </ 用 途 > 
</ 教 室 > 
< 教室 width= "10m" length= "16m"> 
< 号 码 > A606 </ 号 码 > 
< 用 途 > 语音 室 </ 用 途 > 
</ 教 室 > 
</ 教 学 楼 > 


打开 example3_6. xml 文件 会 发 现 ( 如 图 3.4 所 示 ) ,浏览 器 显示 了 “教室 ”的 属性 及 
属性 值 ,其 中 第 一 个 “教室 ”标记 的 width 和 length 属性 的 值 分 别 是 8m 和 15m ,尽管 在 编 
写 example3_6. xml 时 没有 显示 地 写 出 这 个 “教室 ”标记 的 属性 ,但 是 浏览 器 内 置 的 解析 
器 认为 它 有 名 字 为 width 和 length 的 属性 , 且 属 性 值 是 DTD 文件 sixDTD. dtd 中 
ATTLIST 属性 约束 列表 给 出 的 默认 值 。 


二 直下 ) 


<?xml version="1,0" encoding="UTF-8" ?> 
<!DOCTYPE 教学 楼 {View Source for full doctype...)> 
- < 教学 楼 > 
- < 教室 width="8m' length="15m"> 
< 号 码 >Al101</ 号 码 > 


< 用 途 > 自 习 室 </ 用 途 > 
</ 教 室 > 
- < 教室 width="10m" length="16m"> 
< 号 码 >A606</ 号 码 > 
< 用 途 > 语 音 室 </ 用 途 > 


图 3.4 使 用 ATTLIST 属性 约束 列表 约束 属性 


在 ATTLIST 定义 的 属性 约束 列表 中 涉及 “属性 名 称 *“ 属 性 类 型 * 和 “默认 值 情 况 ”， 
其 意义 分 别 阐述 如 下 。 

1. 属性 名 称 

属性 名 称 的 命名 规则 和 标记 的 命名 规则 相同 , 即 属 性 名 称 可 以 由 字母 (这 里 所 指 的 字 
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母 是 Unicode 表 中 的 字母 ,不仅 包括 通 利 的 拉丁 字母 ,还 包括 汉字 .日文 等 ) 数字 、 下 划 线 


( ”) 点 (“.”) 或 连 字 符 (“-” 7) 组 成 ,但 必须 以 字母 或 下 划 线 开头 ,属性 的 名 称 区 分 大 
小 写 。 
2. 属性 类 型 


属性 值 一 定 是 一 个 字符 串 , 属 性 类 型 决定 了 属性 可 以 用 怎样 的 字符 串 作 为 它 的 值 。 
但 是 ,无 论 何 种 类 型 的 属性 ,其 属性 值 中 都 不 能 含有 左 尖 括号 “二 ”\ 右 尖 括 号 “二 ”与 符号 
“&.” 单 引号 “'” 和 双 引 号 “"”, 如 果 想 使 用 这 些 字符 ,可 以 使 用 实体 引用 。 要 特别 注意 的 
是 ,属性 值 区 分 大 小 写 ,TRUE 与 true 是 不 同 的 属性 值 。 

3. 默认 值 情况 

ATTLIST 定义 的 属性 约束 列表 是 为 了 约束 XML 文件 中 标记 的 属性 ,ATTLIST 属 
性 约束 列表 : 


<! RATILIST 标记 名 称 属性 名 称 属性 类 型 ”默认 值 情况 > 


中 的 “默认 值 情况 ?是 对 标记 的 属性 进行 约束 的 细节 条 件 。 后 续 小 节 将 重点 讲解 “默认 值 
情况 ”和 ”属性 类 型 "的 有 关 细 蔬 。 


3.5.2 属性 的 默认 值 


ATTLIST 属性 约束 列表 

<! RTTLIST 标记 名 称 ”属性 名 称 属性 类 型 默认 值 情 况 > 
包括 “属性 名 称 ”、“ 属 性 类 型 *" 和 “默认 值 情 况 ”, 其 中 的 “默认 值 情况 ”含有 约束 的 细节 条 
件 。 “默认 值 情 况 ” 可 以 是 下 列 三 种 情形 。 

。 字符 串 

例如 : 


<! RATTLIST 桌子 color CDATA "red"> 


中 的 “默认 值 情况 ”是 字符 串 "red"。 
。 ##IMPLIED 或 # REQUIRED 
例如 : 


<! ATTLIST 汽车 和 车牌 CDATA  # REQUIRED> 


中 的 “默认 值 情况 "是 # REQUIRED.。 
。 #FIXED" 字 符 串 " 
例如 : 


<! ATTLIST 火警 电话 “号码 CDATA #FIXED "119"> 


中 的 “默认 值 情况 ”是 #FIXED "119"。 
“默认 值 情况 ”对 标记 的 属性 给 予 约束 的 意义 如 表 3.1 所 示 。 
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表 3.1 默认 值 情况 的 约束 意义 


默认 值 情况 约束 意义 
字符 串 标记 必须 有 该 属性 , 且 有 默认 值 
# IMPLIED 标记 可 以 没有 该 属性 ,没有 默认 值 
# REQUIRED 标记 必须 有 该 属性 ,没有 默认 值 
# FIXED" 字 符 串 " 标记 可 以 没有 该 属性 ,但 如 果 有 该 属性 ,那么 属性 值 固定 不 变 


以 下 就 “默认 值 情 况 ” 的 几 种 情况 进行 详细 讨论 。 
1.“ 默 认 值 情况 ”是 字符 串 
在 ATTLIST 属性 约束 列表 中 可 以 设置 属性 的 “默认 值 情 况 ” 是 一 个 字符 串 ,例如 : 


<!ATTLIST 昌 子 color CDATA "red"> 


如 果 ATTLIST 属性 约束 列表 在 约束 标记 的 属性 时 给 出 的 “默认 值 情况 ”是 一 个 字符 
串 ,那么 在 编写 XML 时 ,可 以 显示 地 为 被 约束 的 标记 附加 该 属性 ,并 且 可 以 重新 指定 该 
属性 的 值 。 但 编写 XML 文件 时 ,也 允许 被 约束 的 标记 不 显示 地 附加 该 属性 ,在 这 种 情况 
下 ,解析 器 认为 该 标记 有 这 个 属性 ,并 且 默 认 值 为 ATTLIST 属性 约束 列表 中 “默认 值 情 
况 ” 给 定 的 字符 串 。 

在 下 面 的 例 7 中 ,XML 文件 example3 7. xml 有 两 个 名 称 是 “商品 ”的 标记 。 其 中 ， 
第 一 个 “商品 ”标记 显示 地 附加 了 sevenDTD. dtd 文件 中 ATTLIST 属性 约束 列表 给 出 的 
“类 别 ? 属 性 ,并 重新 指定 了 该 属性 的 值 ; 第 二 个 “商品 ”标记 没有 显示 地 附加 ATTLIST 
属性 约束 列表 给 出 的 “类 别 ? 属 性 ,但 是 浏览 句 仍 然 显示 了 这 个 标记 的 属性 及 属性 值 , 即 浏 
览 需 内 置 的 解析 需 认 为 这 个 标记 有 名 字 为 “类 别 ? 的 属性 , 且 属 性 值 是 DTD 文件 
sevenDTD. dtd 中 ATTLIST 属性 约束 列表 中 “默认 值 情 况 ” 指 定 的 字符 串 。 

例 7 中 的 XML 文件 和 DTD 文件 按照 UTF-8 编码 保存 在 同一 个 目录 中 ,用 浏览 需 
打开 example3_7. xml 文件 的 效果 如 图 3.5 所 示 。 


E:\chaper3\example3 T. xml 


<?xml version="1,0" encoding="UTF-8" ?> 
<!DOCTYPE 商品 列表 《wew Source for full doctype,,,)> 
一 < 商品 列表 > 
-< 商品 类 别 =" 家 电 "> 
< 名 称 > 电 视 机 </ 名 称 > 


< 价格 >2678 元 /人 台 </ 人 价格 > 
< 商品 > 
- < 商品 类 别 =" 食 品 "> 
< 名 称 > 东 北大 米 </ 名 称 > 
< 价格 >5.9 元 /千克 </ 价 格 > 
< 商品 > 
</ 商 品 列表 > 


图 3.5 用 浏览 带 显 示 标 记 的 属性 


【 例 7 了 
sevenDTD. dtd 


<!ELEMENT 商品 列表 (商品 * ) > 
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<! ELEMENT 商品 (名 称 , 价格 ) > 
<!ELEMENT 名 称 ( 共 PCDATA) > 

<! ELEMENT 价格 (并 PCDRTR) > 

<! ATTLIST 商品 类 别 CDATA "食品 "> 


example3 7. Xml 


<?Xxml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 商品 列表 SYSTEM "sevenDTD. dtd"> 
< 商品 列表 > 
< 商品 类 别 = "家电 "> 
< 名 称 > 电视 机 </ 名 称 > 


< 价格 > 2678 元 / 台 </ 价 格 > 
</ 商 品 > 
< 商品 > <! -一 没有 显示 地 附加 "类 别 " 属 性 -> 
< 名 称 > 东北 大 米 </ 名 称 > 
< 价格 > 5.9 元 /千克 </ 价 格 > 
</ 商 品 > 
</ 商 品 列表 > 


2.“ 上 默认 值 情 况 ” 是 #IMPLIED 
在 ATTLIST 属性 约束 列表 中 可 以 设置 属性 的 “默认 值 情 况 ” 是 #IMPLIED, 例 如 : 


<! RATTILIST 桌子 color 井 IMPLIED > 


当 属 性 的 "默认 值 情况 ?是 关键 字 # IMPLIED 时 ,该 属性 就 没有 默认 值 ,而 且 被 约束 
的 标记 可 以 不 附加 该 属性 。 当 认为 一 个 属性 对 于 标记 可 有 可 无 , 且 没 有 默认 值 时 ,就 可 以 
将 属性 的 “默认 值 情况 ”设置 为 # IMPLIED，。 

3.“ 默 认 值 情 况 ” 是 # REQUIRED 

在 ATTLIST 属性 约束 列表 中 可 以 设置 属性 的 “默认 值 情 况 ” 是 # REQUIRED， 
例如 : 


<!ATTILIST 桌子 length 井 REOUIRED 
桌子 width  # REQUIRED 


桌子 height # REQUIRED 
> 
当 属 性 的 “默认 值 情 况 ” 是 关键 字 # REQUIRED 时 ,该 属性 没有 默认 值 ,被 约束 的 标 
记 必 须要 附加 该 属性 并 给 出 属性 的 值 。 当 不 想 为 某 个 属性 设置 默认 值 ,但 要 求 标记 必须 
附加 该 属性 时 ,就 可 以 将 属性 的 “默认 值 情况 ?设置 为 寺 REQUIRED。 
4.“ 默 认 值 情况 ”是 #FIXED" 字 符 串 " 
在 ATTLIST 属性 约束 列表 中 可 以 设置 属性 的 “默认 值 情况 ”是 : 


# FIXED "字符 串 " 
例如 : 


<! ATTLIST 报警 电话 “ 旦 码 CDATA 井 EIXED "110" > 
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如 果 属 性 的 “默认 值 情况 ”是 : 

# FIXED "字符 串 " 
那么 该 属性 的 默认 值 就 是 关键 字 #FIXED 后 面 指定 的 那个 字符 串 。 在 编写 XML 文件 
时 ,即使 被 约束 的 标记 不 显示 地 附加 该 属性 ,解析 器 也 认为 该 标记 有 这 个 属性 ,而 且 属 性 
值 是 并 FIXED 后 面 指 定 的 那个 字符 串 。 但 是 ,在 编写 XML 文件 时 ,如 果 被 约束 的 标记 显 
示 地 附加 该 属性 ,那么 不 可 以 改变 属性 的 值 , 即 该 属性 的 值 必须 是 # FIXED 后 面 指定 的 
那个 字符 串 。 要 约束 标记 的 某 个 属性 的 值 是 固定 不 变 的 一 个 值 ,就 可 以 将 属性 的 “默认 值 
情况 ”设置 为 : 


# FIXED "字符 串 "” 


注意 : 浏览 器 内 置 的 XML 解析 器 只 检查 XML 关联 的 DTD 文件 本 身 是 否 有 错 , 不 
检查 XML 文件 是 否 遵守 了 DTD 文件 的 约束 条 件 ,建议 读者 时 常 使 用 3.2 节 中 例 3 提供 
的 TestValiadate 解析 器 验证 XML 文件 是 否 遵守 了 DTD 文件 的 约束 条 件 。 

在 下 面 的 例 8 中 XML 文件 是 有 效 的 ,DTD 文件 约束 XML 文件 中 名 称 为 “教室 ”的 
标记 必须 有 “号 码 ” 属 性 。 例 8 中 的 XML 文件 和 DTD 文件 按照 UTF-8 编码 保存 在 同一 
个 目录 中 ,用 浏览 人 打开 example3_8. xml 的 效果 如 图 3. 6 所 示 。 

<?xml version="1.0" encoding="UTF-8" ?> 


<!IDOCTYPE 教学 楼 [View Source for full doctype,,,) 
- < 教学 楼 > 


< 教室 号 码 ="2109"> 物 理 系 考 用 </ 教 室 > 

< 教室 号 码 ="5509"> 英 语系 考 用 </ 教 室 > 

< 休息 室 号 码 ="T5"3> 老 师 课 间 休 息 专用 </ 休 息 室 > 
< 休息 室 > 学 生 课 间 休 息 考 用 < 休息 室 > 


迪 学 楼 > 


图 3.6 “默认 值 情 况 ” 为 # REQUIRED 和 #IMPLIED 


【 例 8】 


eightDTD. dtd 


<!ELEMENT 教学 楼 (教室 * ,休息 室 * ) > 
<!ELEMENT 教室 (#PCDATA)> 

<! ELEMENT 休息 室 ( #PCDATA)> 

<! ATTLIST 教室 号 码 CDATA # REQUIRED> 
<! ATTLIST 休息 室 ”号码 CDATA # IMPLIED> 


example3 8. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 教学 楼 SYSTEM "eightDTD. dtd"> 
< 教学 楼 > 
< 教室 号 码 = "2109"> 物理 系 专用 </ 教 室 > 
< 教室 号 码 = "5509"> 英语 系 专用 </ 教 室 > 
< 休息 室 号 码 = "T5"> 老师 课 间 休息 专用 </ 休 息 室 > 
< 休息 室 > 学 生 课 间 休息 专用 </ 休 息 室 > 
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</ 教 学 楼 > 

如 果 修 改 example3_8. xml, 使 某 个 “教室 ”标记 不 附加 属性 名 字 为 号码” 的 属性 , 即 
将 其 中 的 

< 教室 号 码 = "2109"> 物 理 系 专 用 </ 教 室 > 
修改 为 : 


< 教室 > 物理 系 专 用 </ 教 室 > 


那么 ,解析 天 将 检查 出 这 一 错误 ,认为 修改 后 的 example3_8. xml 不 是 一 个 有 效 的 XML 
文件 ,并 将 错误 信息 输出 。 请 读者 使 用 3. 2 节 中 例 3 提供 的 TestValiadate 验证 修改 后 的 
example3 8. xml。 

在 下 面 的 例 9 中 ,DTD 文件 约束 XML 文件 中 的 “报警 电话 ”和 “火警 电话 ”标记 可 以 
附加 或 不 附加 “号 码 ” 属 性 。 但 是 如 果 “ 报 警 电话 ”标记 附加 “号 人 码 ” 属 性 ,要 求 属性 值 必须 
是 “110”; 如 果 “ 火 警 电 话 ” 标 记 附 加 “号 码 ” 属 性 ,要 求 属性 值 必须 是 119”。 例 9 中 的 
XML 文件 是 有 效 的 ,XML 文件 和 DTD 文件 按照 UTF-8 编码 保存 在 同一 个 目录 中 。 用 
浏览 融 打 开 example3_9. xml 的 效果 如 图 3.7 所 示 。 


地 址 名 ) 图 E.\chaper3\example3 日 .Xml 


<?xml version="1.0" encoding="UTF-8”?> 
<IDOCTYPE 重要 电话 簿 (Wiew Source for full doctype,,, )> 
- < 重要 电话 注 > 
< 报警 电话 号 码 ="110"> 不 要 乱 打 报警 电话 。</ 报 警 电话 > 
< 火警 电话 号 码 ="119"> 一 旦 发 生火 灾 ， 请 及 时 搂 打 火警 电话 。<,/ 火警 电话 > 
< 急救 电话 号 码 ="120"> 救 死 扶 伤 </ 和 急救 电话 > 
草 要 电话 湾 > 


3.7 “默认 值 情 况 " 为 # FIXED 


【 例 9】 


nineDTD. dtd 


<! ELEMENT 重要 电话 和 (报警 电话 ,火警 电话 ,急救 电话 ) > 
<! ELEMENT 报警 电话 (车 PCDRATR)> 

<!ELEMENT 火警 电话 (车 PCDRATR)> 

<! ELEMENT 急救 电话 (#PCDATA)> 

<! ATTLIST 报警 电话 ”号码 CDATA 井 FIXED "110"> 

<! RATTLIST 火警 电话 ”号码 CDATA 井 EIXED "119"> 
<!ATTLIST 急救 电话 “号码 CDATA 井 FIXED "120"> 


example3 9. xml 


<?xml version= "1.0” encoding= "UTF— 8”?> 

<!DOCTYPE ”重要 电话 籍 ”SYSTEM "ten. dtd"> 

< 重要 电话 短 > 
< 报警 电话 ”号 码 = "110" > 不 要 乱 打 报警 电话 .</ 报 警 电话 > 
< 火警 电话 > 一 旦 发 生火 灾 , 请 及 时 拨打 火警 电话 .</ 火 警 电 话 > 
< 急救 电话 > 救死扶伤 </ 急 救 电 话 > 


第 3 章 有 效 的 XW 文件 | 47 


</ 重 要 电话 秒 > 

如 果 修 改 example3_9. xml, 使 “火警 电话 ”标记 附加 “号 码 ” 属 性 ,并 指定 属性 值 是 
“999”, 即 将 其 中 的 

< 火警 电话 > 一 旦 发 生火 灾 , 请 及 时 拨打 火警 电话 .</ 火 警 电 话 > 
修改 为 : 

< 火警 电话 “号码 = "999"> 一 旦 发 生火 灾 , 请 及 时 拨打 火警 电话 .</ 火 警 电 话 > 
那么 ,解析 副将 检查 出 这 一 错误 ,认为 修改 后 的 example3_9. xml 不 是 一 个 有 效 的 XML 文 


件 , 并 将 错误 信息 输出 。 使 用 3.2 节 中 例 3 提供 的 TestValiadate 验证 example3_9. xml 的 效 
果 如 图 3. 8 所 示 。 


:Wehaper3>java TestValidate 

入 要 验证 有 效 性 的 XIL 立 件 的 名 字 : example3_9. xml 
错误 : Attribute“ 号 码 ” with value “999”must have a value of “119". 
xample3_9. xm1 女 件 不 是 有 效 的 


图 3.8 使 用 解析 器 检查 出 的 错误 
3.5.3 属性 类 型 


属性 类 型 决定 了 属性 可 以 用 怎样 的 字符 串 作 为 属性 的 值 。 属 性 的 常用 类 型 有 : 
CDATA, Enumerated, NMTOKEN, NMTOKENS, TID, IDREF, IDREFS 


以 下 分 别 来 介绍 这 些 属性 类 型 。 

1. CDATA 类 型 

对 于 CDATA(Character Data) 类 型 的 属性 ,该 属性 的 值 可 以 是 任何 一 个 字符 串 ,但 
是 ,字符 串 中 不 能 含有 左 尖 插 号 、 右 尖 插 号 、 与 符号 、 单 引号 和 双 引 号 ,如 有 果 想 使 用 这 些 字 
符 , 可 以 使 用 实体 引用 。 

下 面 的 例 10 中 ,XML 文件 是 有 效 的 (可 以 使 用 3. 2 节 中 的 解析 器 验证 ) ,DTD 文件 
的 ATTLIST 属性 约束 列表 约束 XML 文件 的 标记 中 的 属性 是 CDATA 类 型 , 即 属 性 值 
可 以 是 任何 一 个 字符 串 。 例 10 中 的 XML 文件 和 DTD 文件 按照 UTF-8 编码 保存 在 同 
一 个 目录 中 。 

【 例 10】 


tenDTD. dtd 


<! ELEMENT 通讯 录 (姓名 * ) > 

<!ELEMENT 姓名 (#PCDATA)> 

<!RATILIST 姓名 电话 CDATA  # REQUIRED 
E-mail CDATA  # REQUIRED 
住址 CDATA # IMPLIED 
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example3_10. xml 
<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 通讯 录 SYSTEM "tenDTD. dtd"> 
< 通讯 录 > 
< 姓名 电话 = "12345678" E-mail = "zhangfei(@ yahoo.com" > 张 飞 </ 姓 名 > 
< 姓名 电话 = "98765432" E-mail = "1ikui(@ sohu. com" 住址 = "大 连 老 警 湾 "> 李 过 </ 姓 名 > 
</ 通 讯 录 > 


2. Enumerated 类 型 

如 果 属 性 的 类 型 是 Enumerated 类 型 ,那么 该 属性 只 可 以 是 枚 举 给 出 的 值 , 即 属性 可 
以 取 的 值 是 用 符号 "| ?分 隅 的 几 个 字符 串 中 的 任何 一 个 。 在 ATTLIST 属性 约束 列表 中 
使 用 Enumerated 类 型 的 格式 如 下 : 


<! ATTLIST 标记 名 称 属性 名 称 (属性 值 1 | 属性 值 2| … | 属性 值 n) 默认 值 情 况 > 


对 于 Enumerated 类 型 ,属性 值 可 以 是 由 字母 ,数字 、 下 划 线 (“_”)、 点 (“.”) 或 连 字符 
(“-”) 组 成 的 字符 串 , 并 允许 首 字符 是 数字 字符 。 需 要 注意 的 是 ,如 果 XML 文件 使 用 
UTF-8 编码 ,字母 不 仅 包 括 通常 的 拉丁 字母 abc 等 ,也 包括 汉字 、 日 文 假 名 、 朝 鲜 文 以 
及 其 他 许多 语言 中 的 文字 。 

下 面 的 例 11 中 ,XML 文件 是 有 效 的 ,ATTLIST 属性 约束 列表 约束 XML 文件 的 标 
记 中 的 属性 为 Enumerated 类 型 , 即 属性 值 是 从 ATTLIST 属性 约束 列表 中 规定 的 若干 
个 值 中 选择 一 个 。 例 11 中 的 XML 文件 和 DTD 文件 都 按照 UTF-8 编码 保存 在 同一 个 
目录 中 。 

【 例 11】 


elevenDTD. dtd 


<! ELEMENT 道路 (路 灯 * ) > 

<! ELEMENT 路 灯 (编号 ,位 置 )> 

<! ELEMENT 编号 ( 井 PCDRTR)> 

<! ELEMENT 位 置 (# PCDATA)> 

<! ATTLIST 路 灯 状态 ( 亮 | 灭 ) # REQUIRED > 


example3_ 11. xml 


<?xml version= "1.0”encoding= "UTF— 8" ?> 
<! DOCTYPE 道路 SYSTEM "elevenDTD. dtd"> 
< 道路 > 
< 路 灯 状态 = " 亮 "> 
< 编号 > 10010 </ 编 号 > 
< 位 置 > 中 山路 </ 位 置 > 
</ 路 灯 > 
< 路 灯 状态 = " 灭 "> 
< 编号 > 20011 </ 编 号 > 
< 位 置 > 长 江 路 </ 位 置 > 
</ 路 灯 > 
</ 道 路 > 
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如 果 将 example3_11. xml 文件 中 的 茶 个 “路灯 ”标记 的 "状态 "属性 的 值 更 改 为 "turn on ,就 
会 导致 example3_11. xml 是 无 效 的 ( “状态 ”属性 的 值 只 能 是 “ 亮 ? 或 “ 灭 ”) ,用 3. 2 节 提 供 
的 TestValidate 解析 贷 检 查 出 的 错误 提示 如 图 3.9 所 示 。 


3.9 使 用 解析 器 检查 出 的 错误 


3. NMTOKEN 类 型 

如 果 属 性 的 类 型 是 NMTOKEN ,那么 属性 值 可 以 是 由 字母 数字、 下 划 线 (”_ >” 、 点 
(.”) 或 连 字符 (“-”) 组 成 的 字符 串 ,属性 值 中 不 能 含有 空格 字符 (属性 值 也 可 以 用 数字 、 
点 或 连 字 符 开 头 ) 。 

在 下 面 的 例 12 中 ,XML 文件 是 有 效 的 ,ATTLIST 属性 约束 列表 约束 XML 文件 的 
标记 使 用 NMTOKEN 类 型 的 属性 , 即 标记 附加 的 属性 的 属性 值 中 不 能 含有 空格 。 例 12 
中 的 XML 文件 和 DTD 文件 按照 UTF-8 编码 保存 在 同一 个 目录 中 。 

【 例 12】 


twelveDTD. dtd 


<! ELEMENT 作家 名 单 (姓名 * ) > 

<! ELEMENT 姓名 ( #PCDATA)> 

<! ATTLIST 姓名 笔名 NMTOKEN # IMPLIED > 
example3_ 12. xml 


<?xml] version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 作家 名 单 SYSTEM "twelveDTD. dtd"> 
< 作家 名 单 > 

< 姓名 笔名 = "仙山 "> 张 三 </ 姓 名 > 

< 姓名 笔名 = "桃李 "> 李 陶 </ 姓 名 > 
</ 作 家 名 单 > 


如 果 将 example3_12. xml 文件 中 的 
< 姓名 笔名 = "桃李 "> 李 陶 </ 姓 名 > 
更 改 为 : 
< 姓名 笔名 = " 桃 tao 1i 李 "> 李 陶 </ 姓 名 > 


即 让 属性 “笔名 ”的 属性 值 中 包含 空格 ,就 会 导致 example3_12. xml 是 无 效 的 ,用 3. 2 他 
提供 的 TestValidate 解析 器 检查 出 的 错误 提示 如 图 3. 10 所 示 。 


3.10 使 用 解析 融 检 查 出 的 错误 
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4. NMTOKENS 类 型 

NMTOKEN 类 型 的 属性 的 属性 值 中 不 能 含有 空格 。 如 果 需 要 某 个 属性 的 属性 值 含 
有 空格 ,而 且 被 空格 分 隔 开 的 子 字符 串 符 合 NMTOKEN 类 型 属性 的 属性 值 规定 ,那么 就 
可 以 将 属性 的 类 型 取 为 NMTOKENS 类 型 (NMTOKENS 关键 字 比 NMTOKEN 多 了 一 
个 字母 S, 是 复数 NMTOKEN ) 。 

在 下 面 的 例 13 中 ,XML 文件 是 一 个 有 效 的 XML 文件 ,ATTLIST 属性 约束 列表 约 
束 XML 文件 中 “图书 ?标记 的 “关键 字 ?” 属 性 的 类 型 是 NMTOKENS。 例 13 中 的 XML 文 
件 和 DTD 文件 按照 UTF-8 编码 保存 在 同一 个 目录 中 。 

【 例 13】 


thirteenDTD. dtd 


<! ELEMENT 图 书 列表 (图 书 * ) > 

<! ELEMENT 图 书 (名 称 , 出 版 社 )> 
<!ELEMENT 名 称 (车 PCDRTR)> 

<! ELEMENT 出 版 社 ( 井 PCDRATR)> 

<! ATTLIST 图 书 关键 字 NMTOKENS # REQUIRED > 


example3_13. xml 
<?xml] version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 图 书 列表 SYSTEM "thirteenDTD. dtd"> 
< 图 书 列表 > 
< 图 书 ”关键 字 = "XML 可 扩展 语言 解析 器 "> 
< 名 称 > XM 基础 教程 </ 名 称 > 
< 出 版 社 > 清华 大 学 出 版 社 </ 出 版 社 > 
</ 图 书 > 
< 图 书 ”关键 字 = "Java 类 对 象 线程 ”> 
< 名 称 > Java 程序 设计 </ 名 称 > 
< 出 版 社 > 清华 大 学 出 版 社 </ 出 版 社 > 
</ 图 书 > 
</ 图 书 列表 > 
5. ID 类 型 
ID 类 型 的 属性 的 属性 值 具有 互 斥 性 , 即 所 有 ID 类 型 的 属性 的 属性 值 必须 互 不 相同 。 
如 果 和 希望 某 个 属性 的 属性 值 具有 专用 性 , 即 不 允许 其 他 ID 类 型 的 属性 与 当前 属性 具有 相 
同 的 属性 值 , 那 么 就 可 以 将 当前 属性 的 类 型 取 为 ID 类 型 。 需 要 注意 的 是 ,ID 类 型 的 属性 
值 可 以 由 字母 数字 、 下 划 线 (“_”)、 点 (“.”) 或 连 字 符 (“-”) 组 成 ,但 必须 以 字母 或 下 划 线 
开头 。 另 外 ,ID 类 型 属性 的 “默认 值 情况 ”只 能 是 # REQUIRED" 或 ”#1IMPLIED” ,不 可 
以 是 “字符 串 ” 或 “# FIXED”。 例 如 ,下 列 “ 地 址 ”属性 的 类 型 是 ID, 但 “默认 值 情况 ”是 错 
误 的 : 
<! ATTLIST 汪 想 地 址 ID FIXED "北京 市 " > 
<! ATTLIST 辛 望 地 址 ID "清华 大 学 "> 


下 列 “ 地 址 ”属性 的 类 型 是 ID,“ 默 认 值 情况 ”是 正确 的 : 
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<! ATTLIST 汪 相 地 址 ID #REQUIRED > 
<! ATTLIST 辛 望 地 址 ID # IMPLIED > 


在 下 面 的 例 14 中 ,XML 文件 是 一 个 有 效 的 XML 文件 ,ATTLIST 属性 约束 列表 约 
束 XML 文件 中 名称? 标记 的 “车 牌号 ”属性 是 ID 类 型 。 例 14 中 的 XML 文件 和 DTD 文 
件 按照 UTF-8 编码 保存 在 同一 个 目录 中 。 

【 例 14】 


fourteenDTD. dtd 

<! ELEMENT 城市 交通 (公交 电车 ,公交 汽车 ) > 
<! ELEMENT 公交 电车 (名 称 * ) > 

<! ELEMENT 公交 汽车 (名 称 * ) > 

<!ELEMENT 名 称 ( 共 PCDATA) > 

<! ATTLIST 名 称 车 牌号 ID # REQUIRED > 


example3 14.xml 
<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 城市 交通 SYSTEM "fourteenDTD. dtd"> 
< 城市 交通 > 
< 公交 电车 > 
< 名 称 车 牌号 = " 辽 B555" > 101 无 轨 电 车 </ 名 称 > 
< 名 称 车 牌号 =" 辽 B888" > 201 有 轨 电 车 </ 名称 > 
</ 公交 电 让 > 
< 公 世 汽车 > 
< 名 称 车 牌号 = " 辽 B8666" > 801 快车 </ 名 称 > 
< 名 称 车 牌号 = " 辽 B777" > 631 普通 </ 名 称 > 
</ 公 交 汽 车 > 
</ 城 市 交通 > 


如 有 果 将 XML 文件 example3_14. xml 中 的 两 个 名称 ”标记 的 “车 牌号 "属性 的 值 都 取 


为 “ 辽 B666”, 就 会 导致 example3_14. xml 是 无 效 的 ,用 3.2 节 提 供 的 TestValidate 解析 
佑 检查 出 的 错误 提示 如 图 3.11 所 示 。 


:chaper3>java TestValidate 
效 性 的 XWL 艾 件 的 名 字 ; example3_14. xml 
; Attribute value “TBBBB” of type ID must be unique within the document. 
ample3_14. xm1 女 件 不 是 有 效 的 


图 3.11 使 用 解析 器 检查 出 的 错误 


注意 : ID 类 型 属性 的 属性 值 的 专用 性 仅 限 于 ID 类 型 的 属性 ,并 不 干涉 其 他 类 型 属 
性 的 属性 值 。 也 就 是 说 若干 个 类 型 都 是 ID 类 型 的 属性 的 属性 值 必 须 互 不 相同 ,如 果 另 
外 一 个 属性 的 类 型 不 是 ID 类 型 ,那么 它 的 属性 值 可 以 和 某 个 ID 类 型 的 属性 的 属性 值 
相同 。 

一 个 标记 的 若干 属性 中 ,不 允许 有 两 个 属性 的 类 型 都 是 ID。 

6. IDREF 类 型 

如 果 要 通过 标记 的 属性 值 来 判断 标记 之 间 的 联系 ,就 可 以 在 标记 中 使 用 IDREF 
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(Identifier Reference) 类 型 的 属性 。IDREF 类 型 属性 的 属性 值 只 能 取 某 个 标记 中 ID 类 
型 属性 的 属性 值 。 

下 面 的 例 15 中 ,XML 文件 是 一 个 有 效 的 XML 文件 ,其 中 名 称 是 “专科 ”“ 本 科 ”、 
“硕士 "或 “博士 "标记 的 numberCode 属性 是 ID 类 型 ,名 字 是 “姓名 ”的 标记 的 “学 历 ” 属 性 
类 型 是 IDREF 类 型 。 例 15 中 的 XML 文件 和 DTD 文件 按照 UTF-8 编码 保存 在 同一 个 
目录 中 。 

【 例 15】 


fifteenDTD. dtd 


<! ELEMENT 简历 列表 (专科 ,本 科 , 人 硕士 ,博士 ,姓名 * ) > 
<! ELEMENT 专科 EMPTY > 

<! ELEMENT 本 科 EMPTY > 

<! ELEMENT 硕士 EMPTY > 

<! ELEMENT 博士 EMPTY > 

<! ELEMENT 姓名 ( #PCDATA)> 

<! ATTLIST 专科 numberCode ID # REQUIRED > 
<! ATTLIST 本 科 numberCode ID # REQUIRED > 
<! ATTLIST 硕士 numberCode ID # REQUIRED > 
<! ATTLIST 博士 numberCode ID # REQUIRED > 
<! ATTLIST 姓名 学 历 IDREF # REQUIRED > 


example3 1S. xml 
<?Xxml version= "1.0” encoding= "UTF— 8”?> 
<! DOCTYPE 简历 列表 SYSTEM "fifteenDTD. dtd"> 
< 简历 列表 > 

< 专科 numberCode = "A101" /> 

< 本 科 numberCode = "B102" /> 

< 硕士 numberCode = "C201" /> 

< 博士 numberCode = "D202" /> 

< 姓名 学 历 = "A101"> 张 三 </ 姓 名 > 

< 姓名 学 历 = "D202"> 李 四 </ 姓 名 > 

< 姓名 学 历 = "B102"> 赵 五 </ 姓 名 > 

< 姓名 学 历 = "C201"> 孙 六 </ 姓 名 > 
</ 简 历 列表 > 


如 果 将 example3_15. xml 中 的 

< 姓名 学 历 = "RM101"> 张 三 </ 姓 名 > 
更 改 为 : 

< 姓名 学 历 = "专科 "> 张 三 </ 姓 名 > 


就 出 现 不 满足 DTD 约束 条 件 的 错误 ,因为 “专科 ”不 是 example3_15. xml 中 某 个 ID 属性 的 
属性 值 , 请 读者 使 用 3. 2 节 中 提供 的 TestValidate 解析 器 验证 修改 后 的 example3_15. xml 的 
有 效 性 。 

7. IDREFS 类 型 

各 硕 望 约 束 某 个 属性 的 属性 值 是 若干 个 其 他 ID 属性 的 属性 值 的 组 合 ,IDREFDS 类 
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型 属性 的 属性 值 就 能 满足 这 一 愿望 。 对 于 IDREFS 类 型 的 属性 , 它 的 值 可 以 是 用 空格 分 
隔 的 若干 个 其 他 ID 属性 的 属性 值 。 

在 下 面 的 例 16 中 ,ATTLIST 属性 约束 列表 约束 XML 文件 中 名 称 是 “作者 ”的 标记 
的 “ 曾 编 图 书 ” 属 性 的 类 型 是 IDREFS。 例 16 中 的 XML 文件 和 DTD 文件 按照 UTF-8 编 
码 保存 在 同一 个 目录 中 。 

【 例 16】 


SixteenDTD. dtd 

<! ELEMENT 清华 大 学 出 版 社 (图 书 * ,作者 x* ) > 
<! ELEMENT 图 书 EMPTY > 

<! ATTLIST 图 书 ISBN ID # REQUIRED > 

<! ELEMENT 作者 (并 PCDRTR)> 

<! ATTLIST 作者 兽 编 图 书 IDREFS 井 REOUIRED > 


example3 16. xml 
<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 清华 大 学 出 版 社 SYSTEM "sixteenDTD. dtd"> 
< 清华 大 学 出 版 社 > 
< 图 书 ISBN= "allll" /> 
< 图 书 ISBN = "b2222" /> 
< 图 书 ISBN="c5555" /> 
< 图 书 ISBN= "d6666" /> 
< 作者 曾 编 图 书 = "all11 b2222"> 张 三 </ 作 者 > 
< 作者 曾 编 图 书 ="c5555 d6666"> 李 四 </ 作 者 > 
</ 清 华 大 学 出 版 社 > 


3.6 内 部 DTD 


可 以 把 DTD 文件 的 内 容 直 接 写 在 XML 文件 的 内 部 ,相对 外 部 DID 文件 ,这 样 的 内 
容 称 为 XML 文件 的 内 部 DTD。 

在 XML 文件 中 ,内 部 DTD 用 “一 !DOCTYPE 根 标 记名 称 [” 开 始 , 以 “] 二 ”结束 。 
“二 1DOCTYPE 根 标 记名 称 L” 与 “] 二 ”之 间 是 DTD 的 内 容 。 内 部 DTD 要 写 在 XML 文 
件 的 “XML 声明 ”和 根 标 记 的 “开始 标签 ”之 间 。 

一 个 XML 文件 如 果 遵 守 内 部 DTD 规定 的 约束 条 件 , 也 称 为 有 效 的 XML 文件 。 

下 面 的 例 17 是 一 个 带 有 内 部 DTD 的 XML 文件 。 

【 例 17】 


example3 17. Xml 


<?Xxml version= "1.0” encoding= "UTF— 8”?> 
<! DOCTYPE 学 生 名 单 [ 

<!ELEMENT 学 生 名 单 (学 生 x*)> 

<!ELEMENT 学 生 (姓名 ,学 号 ) > 
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<!ELEMENT 姓名 ( 井 PCDRTR) > 
<!ELEMENT 学 号 ( 共 PCDATA) > 
]> 
< 学 生 名 单 > 
< 学 比 > 
< 姓名 > 张 三 </ 姓 名 > 
< 学 号 > 2010 </ 学 号 > 
</ 学 生 > 
< 学 生 > 
< 姓名 > 李 四 </ 姓 名 > 
< 学 号 > 2012 </ 学 号 > 
</ 学 生 > 
</ 学 生 名 单 > 


如 果 XML 文件 同时 带 有 内 部 DTD 和 外 部 DTD 文件 ,那么 XML 解析 胡 会 将 二 者 
合 一 。 如 果 内 部 的 DTD 和 外 部 的 DTD 文件 同时 使 用 元 素 限 制 了 某 个 标记 ,就 会 导致 错 
误 ,因为 ,不 能 使 用 多 个 元 素 约束 同一 个 标记 。 

如 果 不 更 改 一 个 已 经 得 到 广泛 认可 的 DTD 文件 ,但 需 增加 新 的 标记 及 相应 的 约束 
条 件 ,就 可 以 同时 使 用 内 部 DTD 和 外 部 DTD。 内 部 DTD 可 以 在 不 改变 外 部 DTD 文件 
的 情况 下 ,方便 地 增加 新 的 约束 条 件 ,便于 系统 的 维护 。 

同时 使 用 外 部 DTD 和 内 部 DTD 的 格式 如 下 : 

<! DOCTYPE 根 标记 和 名字 SYSTEM "外 部 DID 的 URI"” [ 

内 部 DTD 内 容 


]> 
或 


<! DOCTYPE 根 标 记名 字 PUBLIC "正式 公用 标识 符 "" 外 部 DID 的 URI"” [[ 
内 部 DTD 内 容 


]> 
假如 已 经 有 如 下 的 XML 文件 : 
< 楼 房 > 


< 办 公 室 > 
< 门 > 木门 </ 门 > 
< 窗 > 铝 合金 </ 窗 > 
</ 办 公 室 > 
</ 楼 房 > 


以 及 相应 的 对 其 进行 约束 的 DID 文件 : 


<!ELEMENT 楼 房 RNY > 

<! ELEMENT 办 公 室 ( 门 , 窗 ) > 
<! ELEMENT 门 (#PCDATA) > 
<! ELEMENT 窗 (站 PCDRTR) > 


如 果 准 备 修改 上 述 XML 文件 ,增加 一 个 “库房 ”标记 ,但 不 想 修 改 DID 文件 ,就 可 以 
在 XML 文件 中 使 用 内 部 DTD 给 出 新 增 标 记 的 约束 条 件 。 
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在 下 面 的 例 18 中 ,XML 文件 同时 使 用 外 部 DID 和 内 部 DTD 的 XML 文件 ,使 用 内 
部 DTD 给 出 “库房 ”标记 的 约束 条 件 。 
【 例 18】 


eighteenDTD. dtd 

<! ELEMENT 楼 房 ”ANY > 

<! ELEMENT 办 公 室 ( 门 , 窗 ) > 
<! ELEMENT 门 (# PCDATA) > 
<! ELEMENT 窗 ( 共 PCDATA) > 


example3 18. xml 
<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 楼 房 SYSTEM "twentyOneDTD.dtd" [ 
<! ELEMENT 库房 ( 门 , 窗 )> 
]> 
< 楼 房 > 
< 办 公 室 > 
< 门 > 木 门 </ 门 > 
< 窗 > 铝 合金 </ 窗 > 
</ 办 公 室 > 
< 库房 > 
< 门 > 铁 门 </ 门 > 
< 窗 > 铝 合金 </ 窗 > 
</ 库 房 > 
</ 楼 房 > 


站 加 3 


.什么 叫 有 效 的 XML 文件 ? 
. DTD 文件 的 编码 必须 和 其 约束 的 XML 文件 的 编码 相 一 致 吗 ? 
. DTD 文件 中 元 素 的 作用 与 其 在 DID 文件 中 的 书写 位 置 有 关 吗 ? 
. XML 文件 如 何 和 一 个 DTD 文件 关联 ? 
5. 对 于 一 个 有 效 的 XML 文件 ,标记 中 的 属性 一 定 要 有 ATTLIST 属性 约束 列表 对 
其 进行 约束 吗 ? 
6. 下 列 ATTLIST 属性 约束 列表 有 何不 同 ? 


(1]) <!RATTLIST 张 三 学 号 CDATA  # REQUIRED> 


上 > 0 WD 5 一 


(2) <!RTTLIST 张 三 学 号 CDATA #FIXED "220123"> 

(3) <!RATTLIST 张 三 学 号 CDATA 井 井 IMPLIED > 

7. ID 类 型 的 属性 有 什么 特点 ? 

8. 奇 XML 文件 中 没有 标记 的 属性 是 ID 类 型 ,那么 将 某 个 属性 的 类 型 约束 为 
IDREF 类 型 是 否 合理 ? 

9. 如 果 一 个 属性 的 类 型 是 NMTOKEN ,下列 哪个 字符 串 是 该 属性 可 以 取 的 属性 值 ? 
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(1) hello 

(2) How are you 

(3) _Good 

(4) 2002-12-22 

10. 奋 有 如 下 的 DID 文件 : 


A. dtd 


<! ELEMENT 成 绩 单 (学 生 * ) > 
<! ELEMENT 学 生 (姓名 ,成 绩 ) > 
<! ELEMENT 姓名 ( 井 PCDRTR)> 
<! ELEMENT 成 绩 ( #PCDATA)> 


请 问 , 下 面 的 XML 文件 是 有 效 的 吗 ? 如 果 不 是 有 效 的 ,请 将 其 修改 为 有 效 的 。 


B. xml 
<?xml version= "1.0” encoding= "UTF— 8”?> 
<!DOCTYPE ”成绩 单 SYSTEM "A.dtd"> 
< 成 绩 单 > 
< 学 生 > 
< 姓名 > 张 三 </ 姓 名 > 
< 成 绩 > 优秀 </ 成 绩 > 
</ 学 生 > 
< 学 后 > 
< 成 绩 > 良好 </ 成绩 > 
< 姓名 > 李 四 </ 姓名 > 
</ 学 生 > 
</ 成 绩 单 > 


DOM 解析 器 


主要 内 容 

。 认识 DOM 解析 器 

。 节点 的 类 型 

。 Document 节点 

。 Element 节点 

Text 节点 

Attr 节点 
DocumentType 节 点 
。 处 理 空白 

。 验证 规范 性 和 有 效 性 
使 用 DOM 生成 XML 文件 


针对 XML 文件 的 解析 融 是 XML 文件 和 应 用 程序 之 间 的 一 个 软件 组 织 , 使 应 用 程序 
从 XML 文件 中 解析 出 所 需要 的 数据 。 有 两 种 最 稼 用 的 解析 天 : 基于 DOM 的 解析 各 和 基 
于 事件 的 解析 需 ,本章 讲述 基于 DOM 的 解析 需 , 下 一 曹 讲述 基于 事件 的 解析 需 (SAX)。 


4.1 认识 DOM 解析 塌 


DOM 解析 器 的 核心 是 在 内 存 中 建立 和 XML 文件 相对 应 的 树 形 结构 数据 ,XML 文 
件 的 标记 及 其 文本 内 容 等 都 会 和 内 存 中 树 形 结构 数据 的 茶 个 节点 相对 应 。 使 用 DOM 解 
析 融 的 好 处 是 : 一 个 应 用 程序 可 以 方便 地 操作 内 存 中 树 形 结构 数据 的 节点 来 处 理 XML 
文件 ,以 便 获取 所 需要 的 数据 。 


4.1.1 DOM 标准 
DOM(Document Object Model, 文 档 对 象 模 型 ) 是 W3C 制定 的 一 套 规范 标准 ,各 种 


基于 DOM 规范 的 解析 融 必 须 按照 DOM 规范 在 内 存 中 建立 数据 。 DOM 规范 的 核心 是 
树 模型 ,作为 解析 XML 文件 的 解析 需 ,解析 融通 过 读 和 人 XML 文件 在 内 存 中 建立 一 个 树 
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形 结构 数据 ,也 就 是 说 XML 文件 的 标记 、 标 记 的 文本 内 容 等 都 会 和 内 存 中 树 形 结构 数据 
的 茶 个 节点 相对 应 。 一 个 应 用 程序 可 以 方便 地 操作 内 存 中 树 形 结构 数据 的 节点 来 处 理 
XML 文件 ,获取 所 需要 的 数据 。 


4.1.2 初 识 JAXP 


本 章 主 要 介绍 Java 语言 的 DOM 解析 器 ,Java 语言 的 DOM 解析 器 是 支持 DOM 
level 3 的 解析 硕 。 按 照 W3C 制定 的 DOM 规范 ,Sun 公司 发 布 的 JDK1.4 的 后 续 版 本 中 
提供 了 解析 XML 文件 的 JAXP(Java API for XML Parsing,JAXP) ,JAXP 实现 了 DOM 
规范 的 Java 语言 绑 定 。 可 以 登录 Sun 公司 的 网 站 : http://java. sun. com, 免费 下 载 
JDK1. 6( 例 如 : jdk-6u3-windows-1586-p. exe) 。 

首先 让 我 们 简单 地 了 解 一 下 JAXP, 有 关 细 节 将 在 后 续 小 节 分 别 讲述 。 

在 JAXP 中 , DOM 解析 器 是 DocumentBuilder 类 的 一 个 实例 ,该 实例 由 
DocumentBuilderFactory 负责 创建 ,步骤 如 下 。 

(1) 使 用 javax. xml. parsers 包 中 的 DocumentBuilderFactory 类 调用 其 类 方法 
newlInstance( ) 实 例 化 一 个 DocumentBuilderFactory 对 象 ,例如 : 


DocumentBuilderFactory factory = DocumentBuilderFactory. newInstance( ) ; 


(2) 将 步骤 (1) 得 到 的 DocumentBuilderFactory 对 象 调用 newDocumentBuilder() 方 
法 返回 一 个 DocumentBuilder 对 象 (DocumentBuilder 类 在 javax. xml. parsers 包 中 ) ,该 
对 象 被 称 为 DOM 解析 器 ,例如 : 


DocumentBuilder domParse = factory. newDocumentBuilder( ); 


(3) 将 步骤 (2) 中 得 到 的 DOM 解析 需 调 用 public Document parse(File f) 方 法 解析 
参数 f 指定 的 XML 文件 ,该 方法 返回 的 对 象 是 实现 Document 接口 的 一 个 实例 
(Document 接口 在 org. w3c. dom 包 中 ) ,例如 : 


Document document = domParse. parse(new File("student. xml")).; 


在 上 面 的 第 (3) 步 中 , DOM 解析 器 domParse 调用 parse() 方 法 返回 的 对 象 : 
document。 它 是 由 一 些 Node 对 象 所 构成 的 ,Node 对 象 被 习惯 地 称 为 节点 ,这 些 节 点 组 
成 树 形 结构 。document 的 结构 和 XML 标记 组 成 的 树 形 结构 相同 , 即 document 就 是 
DOM 解析 器 在 内 存 中 建立 的 和 XML 文件 相对 应 的 树 形 结构 数据 。 

应 用 程序 分 析 内 存 中 的 树 形 结构 数据 document ,就 可 获得 XML 文件 中 的 各 种 数据 了 。 

另外 ,DOM 解析 器 domParse 也 可 以 使 用 下 述 两 个 方法 解析 XML 文件 : 


public Document parse( InputStream in) throws SAXException, IOException 
public Document parse(String uri) throws SAXException, IOException 


方法 parse(InputStream in) 可 以 解析 输入 流 参 数 in 指向 的 XML 文件 ,例如 : 


FileInputStream in = new FileInputStream( "price. xml" ); 
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Document document = domParse. parse( in ) ; 


方法 parse(String uri) 可 以 解析 参数 uri 指定 的 一 个 有 效 的 资源 ,如 果 uri 是 一 个 
URL, 该 URL 必须 是 可 以 访问 的 ,例如 : 


String uri= "http://192.168.2.1/price. xml"; 
Document document = builder. parse(uri); 


4.1.3 Document 节点 


DOM 解析 需 的 parse() 方 法 把 被 解析 的 XML 文件 封装 成 一 个 Document 记 点 返回 
[XML 文件 和 内 存 中 的 Document 节点 相对 应 , 见 4. 1.2 小 节 的 步骤 (3)j]。 因 此 , 称 
Document 对 象 为 Document 节点 。 应 用 程序 可 以 从 Document 节点 的 子孙 节点 中 获取 
XML 文件 的 各 个 标记 包含 的 数据 的 细节 。 

Document 节点 是 “ 树 ” 的 根 节 点 ,XML 文件 中 的 标记 都 和 Document 节点 的 某 个 子 
节点 相对 应 。Element 类 和 Text 类 是 比较 重要 的 两 个 类 ,这 两 个 类 的 对 象 分 别称 为 
Document 节点 的 Element 类 型 子 节 点 (人 简称 Element 节点) 和 Text 类 型 子 节点 (人 简称 
Text 节点 ) 。 一 个 Element 类 型 节点 中 还 可 含有 Element 类 型 子 节点 、Text 类 型 子 节 点 
(有 关节 点 类 型 的 细节 在 下 节 讲 述 )。 

XML 文件 和 Document 节点 相对 应 。XML 文件 的 根 标 记 和 Document 厄 点 的 一 个 
Element 类 型 子 节点 相对 应 。 所 以 Document 节点 调用 getDocumentElement() 方 法 将 返 
回 XML 文件 的 根 标记 所 对 应 的 这 个 Element 类 型 子 节点 。 

XML 文件 的 其 他 标记 都 必须 封装 在 根 标记 中 ,因此 XML 文件 中 根 标记 的 某 级 别 上 
的 子 标记 恰好 对 应 根 标记 所 对 应 的 Element 节点 的 同 级 别 上 的 某 个 Element 子 节 点 。 

我 们 已 经 知道 ,XML 文件 中 的 标记 除了 可 以 含有 子 标记 外 ,还 可 以 含有 文本 。 如 果 
XML 文件 的 某 个 标记 既 含 有 子 标记 也 含有 文本 ,那么 该 标记 在 Document 节点 中 所 对 应 
的 Element 子 节点 就 会 有 Element 子 节点 和 Text 子 节点 。 

注意 : Document 节点 、Element 节点 和 Text 节点 都 是 Node 节点 中 的 节点 。 

让 我 们 看 一 个 简单 的 例子 ,下 面 例 1 中 的 XML 文件 example4_1. xml 对 应 的 Document 
节点 如 图 4. 1 所 示 。 读 者 需要 把 例 1 中 的 JAXPOne. java 和 它 要 解析 的 example4_1. xml 保 
存在 相同 的 目录 中 ,然后 编译 ,运行 例 1 中 的 Java 程序 ,运行 效果 如 图 4.2 所 示 。 


Document 节 点 
<?xml version="1.0" ?> 
< 姓名 > 张 三 </ 姓 名 > 
< 姓名 > : 
李 四 


< 奖励 > 一 等 奖学金 </ 奖 励 > | 
< 姓名 > 和 
</ 学 生 和 名单 > 


图 4.1 example4 1. xml 文件 对 应 的 Document 节点 
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【 例 1 


example4 1. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 学 生 名 单 > 
< 姓名 > 张 三 </ 姓 名 > 
< 姓名 > 
李 四 
< 奖励 > 一 等 奖学金 </ 奖 励 > 


</ 姓 名 > 图 4.2 使 用 解析 器 解析 XML 文件 
</ 学 生 名 单 > 


JAXPOne. java 


import org.w3c.dom. * ; 
import jJavax. xml. parsers. x*，; 
import JjJava. io. x*; 
public class JRAXPOne{ 
public static void main(String args[ ] ){ 
try { DocumentBuilderFactory factory = 
DocumentBuilderFactory. newInstance( ) ; 
DocumentBuilder domPaser = factory. newDocumentBuilder( ) ; 
Document document = domPaser. parse(new File("example4 1.xml")).; 
Element root = document. getDocumentElement( ) ; 
String rootName = root. getNodeName( ); 
System. out. println("XML 文件 根 节点 的 名 字 : " + rootName) ; 
NodeList nodelist = root. getElementsByTrTagName( "姓名 "); 
int size = nodelist. getLength( ); 
for(int k= 0;k< size;k++){ 
Node node = nodelist. item(k); 
String name = node. getNodeName( ); 
String content = node. getTextContent( ); 
System. out. print(name); 
System. out. println(":" + content); 
} 


} 
catch(Exception e){ 


System. out. println(e); 
} 


} 


现在 ,结合 前 面 的 图 4. 1 来 说 明 XML 文件 和 内 存 中 的 Document 节点 的 对 应 关系 ， 
为 了 方便 ,在 图 4. 1 中 使 用 了 多 … 数 字 记 号 。 
。 XML 文件 中 的 根 标记 对 应 着 数字 记号 为 的 Element 节点 。 
。 XML 文件 中 标记 名 称 为 “姓名 ”的 两 个 标记 按 顺 序 分别 对 应 着 Document 厄 点 中 
数字 记号 为 饭 、 急 的 Element 节点 。 
。 其 中 一 个 “姓名 ”标记 所 包含 的 文本 内 容 “ 张 三 ”对 应 看 Document 节点 中 数字 记 
号 为 由 的 Text 节点 。 
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。 其 中 一 个 “姓名 ”标记 所 包含 的 文本 内 容 李 四 ” 对 应 者 Document 节点 中 数字 记 
号 为 加 的 Text 方 点 ; 名 字 为 “奖励 ”的 子 标记 对 应 着 Document 市 点 中 数字 记号 
为 @ 的 Element 节点 ;“ 奖 励 ” 子 标记 所 包含 的 文本 内 容 “ 一 等 奖学金 ”对 应 痢 
Document 市 点 中 数字 记号 为 的 Text 市 点 。 
以 下 分 析 JAXPOne. java 中 的 代码 。 
Document 节点 调用 getDocumentElement() 方 法 将 返回 XML 文件 的 根 标 记 对 应 的 
Element 节点 : 


Element root = document. getDocumentElement( ) ; 
代码 : 
NodeList nodelist = root. getElementsByTagName(" 姓 名 "); 


返回 一 个 NodeList 对 象 , 因 为 XML 文件 的 根 标 记 有 2 个 名 字 为 “姓名 ”的 子 标记 ,因此 


int size = nodelist. getLength( ); 


中 size 的 值 是 2, 即 nodelist 刚好 含有 2 个 Node 节点 。nodelist 中 的 Node 节点 调用 
getTextContent() 方 法 可 以 返回 和 该 Node 节点 相对 应 XML 标记 及 其 所 有 子孙 标记 中 
的 文本 内 容 。 

注意 : DOM 解析 器 的 关键 点 是 得 到 一 个 Document 节点 ,该 节点 就 是 内 存 中 和 
XML 文件 对 应 的 树 形 结构 数据 , 即 它 由 若干 个 子 节 点 构成 ,这 些 子 节点 与 Document 节 
点 形成 树 形 结构 ,该 树 形 结构 的 根 就 是 这 个 Document 节点 。 


4.2 万 点 的 类 型 


4.2.1 Node 接口 


Document 接口 也 是 Node 接口 的 子 接口 ,也 就 是 说 ,parse() 方 法 将 整个 被 解析 的 
XML 文件 封装 成 一 个 节点 返回 (XML 文件 和 内 存 中 的 Document 节点 相对 应 ) ,并 且 该 
节点 和 它 的 子 节点 组 成 树 形 结构 。 因 此 ,应 用 程序 可 以 从 Document 节点 的 子孙 节点 中 
获取 整个 XML 文件 中 数据 的 细节 ( 见 4. 1 市 中 的 图 4. 1) 。 

按照 DOM 规范 ,下 列 接口 都 是 Node 接口 的 常用 子 接口 : 

。 Document 接口 负责 对 应 整个 XML 文件。 

。 上 lement 接口 负责 对 应 标记 。 

。 Text 接口 负责 对 应 标记 所 包含 的 文本 数据 。 

。 Attr 接口 负责 对 应 标记 的 属性 。 

。 DocumentType 接口 负责 对 应 XML 文件 所 关联 的 DID 文件 。 

任何 实现 上 述 某 个 接口 的 类 的 实例 都 称 为 一 个 节点 ,例如 实现 Element 接口 的 实例 
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称 为 Element 类 型 节点 ,向 称 Element 节点 。 
4.2.2 Node 接口 的 常用 方法 


。 short getNodeType() 节点 调用 该 方法 返回 一 个 表示 节点 类 型 的 常量 (Node 接口 
规定 的 常量 值 ) ,例如 ,如 果 节 点 是 Element 节点 ,那么 节点 调用 getNodeType( ) 
方法 返回 的 值 为 Node. ELEMENT_NODE。 

。 NodeList getChildNodes() 节点 调用 该 方法 返回 一 个 由 当前 节点 的 所 有 子 节 点 
组 成 的 NodeList 对 象 。 


。 Node getFirstChild() 节点 调用 该 方法 返回 当前 节点 的 第 一 个 子 节点 。 

。 Node getLastChild() 节点 调用 该 方法 返回 当前 节点 的 最 后 一 个 子 节点 。 

。 NodeList getTextContent() 节 点 调用 该 方法 返回 当前 节点 及 其 所 有 子孙 节点 中 
的 文本 内 容 。 


4.2.3 节点 的 子孙 关系 


为 了 解析 规范 的 XML 文件 ,DOM 规范 规定 了 各 种 类 型 节点 之 间 可 以 形成 的 子孙 关 
系 。 例 如 ,Document 节点 有 且 仅 有 一 个 Element 节点 ,也 可 以 有 一 个 DocumentType 节 
点 (规范 的 XML 文件 有 且 仅 有 一 个 根 标记 ,也 可 
以 有 一 个 与 其 关联 的 DTD 文件 ),Element 节点 


可 以 有 Element 子 万 点 、Text 子 节 点 (规范 的 
XML 文件 中 的 标记 可 以 有 子 标 记 、 文 本 )。 即 
Document 节点 、Element 节点 可 以 有 子 节 点 ,但 


Text 市 点 不 能 再 有 子 市 点 (属于 叶 市 点 )。 图 4.3 
示意 了 DOM 规范 所 规定 的 节点 之 间 可 以 形成 的 。 图 上 3 节点 可 以 形成 的 子孙 关系 
子孙 关系 。 

通过 图 4.3 可 知 ,JAXP 中 DOM 解析 器 的 parse() 方 法 返回 的 刚好 是 DOM 规范 规 
定 的 根 节点 Document, 其 他 类 型 节点 都 是 此 根 节点 的 子孙 节点 。 从 4. 3 节 开 始 , 将 详细 
地 介绍 这 些 子孙 节点 。 


4.2.4 使 用 遂 归 方法 输出 节点 中 的 数据 


节点 调用 getNodeType() 方 法 返回 一 个 表示 节点 类 型 的 常量 (Node 接口 规定 的 常量 
值 ), 例 如 ,节点 是 Element 节点 ,那么 节点 调用 getNodeType() 方 法 返回 的 值 为 Node. 
ELEMENT_NODE。 因 此 可 以 通过 判断 节点 的 类 型 来 输出 和 节点 相关 的 数据 ,例如 当 节 
点 类 型 是 Element 节点 时 ,就 输出 节点 的 名 字 , 当 节 点 是 Text 节点 时 就 输出 节点 中 的 数 
据 等 。 下 面 的 例 2,JAXPTwo. java 使 用 递归 方法 输出 节点 的 名 称 以 及 节点 中 的 数据 。 
例 2 中 Java 程序 的 运行 效果 如 图 4.4 所 示 。 
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【 例 2】 


example4 2. xml 


<?xml version= "1.0”encoding= "UTF— 8" ?> 
< 雇员 列表 > 
< 雇员 > 
< 姓名 > 张 三 </ 姓 名 > 
< 年 龄 > 25 岁 </ 年 龄 > 
< 工资 > 3190 元 /月 </ 工 资 > 
</ 雇 员 > 
< 雇员 > 图 4.4 输出 XML 中 的 数据 
< 姓名 > 李 四 </ 姓 名 > 
< 年 龄 > 35 岁 </ 年龄 > 
< 工资 > 4320 元 /月 </ 工 资 > 
</ 雇 员 > 
</ 雇 员 列 表 > 


JAXPTwo. java 


import org.w3c. dom. x* ; 
import javax. xml.parsers. 关 ; 
import java. io. x*; 
public class JAXPTwo{ 
public static void main(String args[ ]){ 
try{ DocumentBuilderFactory factory = 
DocumentBuilderFactory. newInstance( ) ; 
DocumentBuilder domParser = factory.newDocumentBuilder(); 
Document document = domParser. parse(new File("example4 2.xml")).,; 
NodeList nodeList = document. getChildNodes( ); 
output (nodeList); 
} 
catch(Exception e){ 
System. out. println(e); 


} 
public static void output(NodeList nodeList){ //output 是 一 个 递归 方法 
int size = nodeList. getLength( ) ; 
for(int k=0;k< size;k++){ 
Node node = nodeList. item(k); 
if(node. getNodeType( ) == Node. TEXT NODE){ 
Text textNode = (Text )node; 
String content = textNode. getWholeText ( ); 
System. out. print (content ); 
} 
if(node. getNodeType( ) == Node. ELEMENT NODE ){ 
Element elementNode = (Element)node; 
String name = elementNode. getNodeName( ) ; 
System. out. print (name + ":"); 
NodeList nodes = elementNode. getChildNodes( ); 
output(nodes);  // 递 归 调 用 
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} 


} 
} 
} 


注意 : 和 例 2 类 似 , 本 章 后 续 的 许多 例子 中 将 使 用 递归 方法 处 理 节点 。 


4.3 Document 节 点 


解析 右 的 parse() 方 法 将 整个 被 解析 的 XML 文件 封装 成 一 个 Document 节点 返回 ， 
应 用 程序 可 以 从 该 节点 的 子孙 节点 中 获取 整个 XML 文件 中 数据 的 细节 。 

Document 节点 可 以 有 的 两 个 直接 子 节 点 ,其 类 型 分 别 是 DocumentType 类 型 和 
Element 类 型 ,其 中 DocumentType 节点 对 应 着 XML 文件 所 关联 的 DID 文件 ,通过 进 一 
步 获 取 该 节点 子孙 节点 来 分 析 DTD 文件 中 的 数据 ; 而 其 中 的 Element 类 型 节点 对 应 看 
XML 文件 的 根 节 点 ,通过 进一步 获取 该 Element 类 型 节点 的 子孙 节点 来 分 析 XML 文件 
中 的 数据 。 如 有 果 XML 文件 没有 关联 DID 文件 ,Document 节点 就 只 有 一 个 Element 类 
型 的 子 节点 。 

Document 节点 经 和 常 使 用 下 列 方法 获取 和 该 节点 相关 的 信息 : 


与 


Element getDocumentElement() 返回 当前 节点 的 Element 子 节 点 。 
DocumentType getDoctype() 返回 当前 节点 的 DocumentType 子 节 点 。 

NodeList getElementsByTagName(String name) 返回 一 个 NodeList 对 象 ,该 对 
象 由 当前 节点 的 Element 类 型 子孙 节点 组 成 ,这 些 子孙 节点 的 名 字 由 参数 name 
指定 。 

NodeListgetElementsByTagNameNS(CString namespaceURI, String local Name) 
返回 一 个 NodeList 对 象 ,该 对 象 由 当前 节点 的 Element 类 型 子孙 入 点 组 成 ,这 些 
子孙 节点 的 名 字 由 参数 localName 指定 ,名 称 空间 由 参数 namespaceURI 指定 。 
String getXmlEncoding() 返 回 XML 文件 使 用 的 编码 , 即 XML 声明 中 encoding 
属性 的 值 。 

boolean getXmlStandalone() 返 回 XML 声明 中 的 standalone 属性 的 值 。 

String getXmlVersion() 返 回 XML 声明 中 的 version 属性 的 值 。 

Document 节点 相关 的 例子 可 参见 前 面 的 例 1。 


4.4 Element 家 虚 


Element 节点 是 Document 节点 最 重要 的 子孙 节点 ,因为 被 解析 的 XML 文件 的 标记 


点 调用 


对 应 着 这 样 类 型 的 节点 。 表 示 Element 节点 的 常量 是 Node. ELEMENT_NODE ,一 个 节 


Short getNodeTYPpe( ) 


方法 返回 的 值 如 果 等 于 Node. ELEMENT _NODE ,那么 该 节点 就 是 Element 节点 。 
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Element 节点 经 常 使 用 下 列 方法 获取 和 该 节点 相关 的 信息 : 
。 String getTagName() 返回 该 节点 的 名 称 , 该 名 称 就 是 此 节点 对 应 的 XML 中 的 
标记 名 称 。 
。 String getAttribute(String name) 返回 该 节点 中 参数 name 指定 的 属性 的 值 ,该 
属性 值 是 此 节点 对 应 的 XML 的 标记 中 属性 的 值 。 
。 NodeList getElementsByTagName(String name) 返回 一 个 NodeList 对 象 ,该 对 
象 由 当前 节点 的 Element 类 型 子孙 节点 组 成 ,这 些 子 孙 节 点 的 名 字 由 参数 name 
指定 。 
。 NodeList getElementsByTag Name NS(String namespaceUR!I, String local Name) 
返回 一 个 NodeList 对 象 ,该 对 象 由 当前 节点 的 Element 类 型 子孙 节点 组 成 ,这 些 
子孙 节点 的 名 字 由 参数 localName 指定 ,名称 空间 由 参数 namespaceURI 指定 。 
。 boolean hasAttribute(String name) 判断 当前 节点 是 否 有 名 字 是 参数 name 指定 
的 属性 。 
。 boolean hasAttributeNS(String namespaceURI, String localName) 判 断 当 前 节 
点 是 否 有 名 字 是 参数 name 指定 、 名 称 空 间 是 namespaceURI 指定 的 属性 。 
注意 : getTagName() 方 法 是 Element 接口 中 的 方法 , getNodeName () 方法 是 
Element 接口 从 Node 接口 继承 的 方法 。 对 于 Element 节点 , getTagName() 和 和 
getNodeName() 返 回 的 都 是 Element 节点 对 应 的 XML 文件 中 标记 的 名 称 。 
下 面 的 例 3 中 ,JAXPThree. java 中 的 Element 节点 使 用 常用 方法 获得 XML 文件 的 
有 关 数 据 。 例 3 中 的 Java 程序 的 运行 效果 如 图 4. 5 所 示 。 
【 例 3】 


example4 3. xml 
<?xml version= "1.0”encoding= "UTF— 8" ?> 
< 商品 列表 > 品名 称 农 电 ) : 
< 商品 名 称 分 类 =" 家电 "> 电视 机 
电视 机 品名 称 服装 ) : 
</ 商 品名 称 > Was 
< 商品 名 称 分 类 = "服装 "> | 
雅 格 尔 西装 
</ 商 品名 称 > 图 4.5 Element 节点 的 常用 方法 
< 商品 名 称 分 类 = "食品 "> 
东北 大 米 
</ 商 品名 称 > 
</ 商 品 列表 > 


JAXPThree. java 


import org.w3c. dom. x ; 
import Javax. xml.parsers. *; 
import java. 10. *; 
public class JAXPThreel{ 
public static void main(String args[ ]){ 
try { DocumentBuilderFactory factory = 
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DocumentBuilderFactory. newInstance( ) ; 

DocumentBuilder domPaser = factory. newDocumentBuilder( ); 
Document document = domPaser. parse(new File("example4 3.xml")).,; 
Element root = document. getDocumentElement().; 
NodeList nodeList = root. getChildNodes( ); 
int size = nodeList. getLength( ); 
for(int k=0;k<size;k++){ 

Node node = nodeList. item(k); 

if (node. getNodeType() == Node. ELEMENT NODE) { 
Element elementNode = (Element)node; 
String name = elementNode. getNodeName( ) ; 
String id = elementNode. getAttribute(" 分 类 ")，; 
String content = elementNode. getTextContent( ); 
System. out. print(name); 
System. out. print("("+ id+")"); 
System. out. println(": "+ content); 


} 
} 
catch(Exception e){} 


} 


在 上 面 的 例 3 中 ,解析 右 获 得 的 Document 节点 有 一 个 上 Element 子 节 点 : root, 该 节 
点 对 应 XML 文件 的 根 标记 。 

需要 特别 注意 的 是 ,root 节点 一 共有 7 个 子 节 点 ,其 中 有 3 个 Element 节点 、4 个 
Text 节点 。 三 个 Element 节点 分 别 对 应 XML 文件 中 根 标记 的 三 个 名 字 是 “商品 名 称 ” 
的 子 标记 ,四 个 Text 节点 的 情况 如 下 : 

第 一 个 Text 节点 对 应 XML 文件 中 根 标 记 的 开始 标签 和 第 一 个 “商品 名 称 ” 标 记 的 
开始 标签 之 间 形 成 的 空白 区 , 即 

< 商品 列表 > 
与 

< 商品 名 称 分 类 =" 家电"> 
之 间 的 空白 区 。 

第 二 个 Text 节点 对 应 XML 文件 中 第 一 个 “商品 名 称 ” 标 记 的 结束 标签 和 第 二 个 “ 商 
品名 称 ” 标 记 的 开始 标签 之 间 形 成 的 空白 区 , 即 

</ 商 品名 称 > 
与 

< 商品 名 称 分 类 = "服装 "> 
之 间 的 空白 区 。 

第 三 个 Text 节点 对 应 XML 文件 中 第 二 个 “商品 名 称 ” 标 记 的 结束 标签 和 第 三 个 “ 商 
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品名 称 ” 标 记 的 开始 标签 之 间 形 成 的 空 日 区 , 即 
</ 商 品名 称 > 

与 
< 商品 名 称 分 类 = "食品 "> 


之 间 的 空白 区 。 

第 四 个 Text 节点 对 应 XML 文件 中 第 三 个 “商品 名 称 ” 标 记 的 结束 标签 和 根 标 记 结 
束 标 签 之 间 形 成 的 空白 区 , 即 

</ 商 品名 称 > 
与 

</ 商 品 列表 > 
之 间 的 空白 区 。 

上 述 四 个 空白 区 都 是 为 了 使 得 XML 文件 看 起 来 更 美观 而 形成 的 ,但 解析 需 并 不 知 
道 这 一 点 ,所 以 解析 器 仍然 认为 它们 是 有 用 的 文本 数据 (由 空格 字符 组 成 ) 。 

另外 三 个 Element 节点 各 自 都 有 一 个 Text 节点 (root 节点 的 孙 节 点 ) ,分别 对 应 着 三 
个 “商品 标记 ”包含 的 文本 数据 :“ 电 视 机 ”、“ 雅 格 尔 西装 ”和 “东北 大 米 ”。 

例 3 中 的 解析 器 获得 的 Document 节点 及 其 子孙 节点 如 图 4.6 所 示 。 


图 4.6 Document 节点 的 子孙 节点 


4.5 Text 家 点 


规范 的 XML 文件 的 非 空 标记 可 以 包含 有 子 标 记 和 文本 内 容 。 在 DOM 规范 中 , 解 
析 需 使 用 Element 节点 封装 标记 ,用 Text 节点 封装 标记 的 文本 内 容 , 即 Element 节点 可 
以 有 Element 子 节 点 和 Text 节点 。 

表示 Text 节点 的 常量 是 Node. TEXT_NODE ,一 个 节点 调用 


Short getNodeType( ) 


方法 返回 的 值 如 果 等 于 Node. TEXT _ NODE, 那 么 该 节点 就 是 Text 节点 。 
Text 节点 使 用 String getWholeText () 方 法 获取 节点 中 的 文本 (包括 其 中 的 空白 字符 )。 
注意 : 对 于 Text 节点 ,getNodeName() 方 法 返回 的 是 “ 井 text”。 
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让 我 们 分 析 下 列 name 标记 : 


<name> Jhon kelin 
<age> 35 </age> 
<sex>male</sex> 
</name > 


上 述 name 标记 将 对 应 一 个 Element 节点 ,而 且 所 对 应 的 这 个 Element 节点 将 有 
7 个 子孙 节点 ,其 中 2 个 Element 子 节 点 、3 个 Text 子 节点 和 2 个 Text 孙 节 点 。 这 些 子 
孙 节 点 和 XML 中 的 标记 及 文本 有 如 下 的 对 应 关系 。 

。 2 个 Element 子 节点 分 别 对 应 name 标记 的 2 个 子 标记 : age 和 sex。 

。 3 个 Text 子 节点 分 别 对 应 着 :;“ 一 name 二 ”与 “一 age 二 ”之 间 的 文本 “Jhon kelin” 

与 “<<age> 盖 ”之 间 的 空白 类 字符 “< 天/sex> ”与 “天 /name>” 之 间 的 空白 类 字符 。 

。 2 个 Text 孙 节 点 分 别 对 应 age 标记 和 sex 标记 包含 的 文本 内 容 :“35” 和 “male”。 

下 面 的 例 4 中 ,JAXPFour. java 中 的 Text 节点 使 用 常用 方法 获得 文本 数据 。 例 4 中 
的 Java 程序 还 计算 了 Text 节点 的 数目 ,运行 效果 如 图 4.7 所 示 。 

【 例 4】 


example4_4. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 同学 录 > 姓名 : 张大 山 


拓 住 城市 :大 连 市 
< 姓名 > 张大 山 联系 电话 :0411-123458 
< 居住 城市 > 大 连 市 </ 居 住 城市 > 姓名 : 刘 浴 花 
< 联系 电话 > 0411 - 123456 </ 联 系 电话 > a ee 
</ 姓 名 > 13 个 Text 节 点 
< 姓名 > 刘 浴 花 
< 居住 城市 > 北京 市 </ 居 住 城 市 > 图 4.7 Text 节 点 中 的 文本 数据 
< 联系 电话 > 010 - 654321 </ 联 系 电 话 > 
</ 姓 名 > 
</ 同 学 录 > 
JAXPFour. java 


import org.w3c.dom. x* ; 
import javax. xml.parsers. 关 ; 
import Java. io. 关 ; 
public class JAXPFour{ 
public static void main(String args[ ] ){ 
GiveData give = new GiveData( ) ; 
try{ DocumentBuilderFactory factory = 
DocumentBuilderFactory. newInstance( ) ; 
DocumentBuilder domPaser = factory. newDocumentBuilder( ) ; 
Document document = domPaser. parse(new File("example4 4.xml")).; 
Element root = document. getDocumentElement() ; 
NodeList nodeList = root. getChildNodes( ); 
give. output(nodeList ) ; 
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System. out. println(" 一 共有 "+ give.m+ "个 Text 节点 "); 
} 
catch(Exception e){} 
} 
} 
class GiveDatal 
int m= 0; 
public void output (NodeList nodeList){ // 这 是 一 个 递归 方法 
int size = nodeList. getLength!( ); 
for(int k=0;k< size;k++){ 
Node node = nodeList. item(k); 
if(node. getNodeType( ) == Node. TEXT NODE){ 
Text textNode = (Text )node; 
String content = textNode. getWholeText( ) ; 
m+ 二 ; 
System. out. print(content) ; 
} 
if(node. getNodeType( ) == Node. ELEMENT _ NODE){ 
Element elementNode = (上 Element ) node; 
String name = elementNode. getNodeName( ) ; 


System. out. print(name+ ":"); 
NodeList nodes = elementNode. getChildNodes( ) ; 
output(nodes ) ; 


} 
} 
对 于 应 用 程序 而 言 , Text 节点 是 较 重 要 的 节点 ,因为 Text 节点 封装 着 XML 标记 包 
含 的 文本 数据 。 下面 例 5 中 的 XML 文件 是 关于 电视 机 的 价格 信息 , 例 5 中 的 Java 程序 
JAXPFive. java 解析 出 这 些 数据 ,并 利用 所 解析 出 的 数据 计算 了 电视 机 的 平均 价格 ,运行 
效果 如 图 4. 8 所 示 。 
【 例 5】 
example4 SS. Xml 


海尔 电视 机 
] . '" 价格 元 7/ 台 ) : 
<?xml version= "1.0" encoding = "UTF— 8" ?> 


< 电视 机 列表 > ee 

< 名 称 > 海尔 电视 机 i 

< 价格 单位 = ' 元 / 台 '> 5238 </ 价 格 > 价格 (元 / 台 ) : 5285 
</ 名 称 > 平均 价格 :4727 67 元 / 台 
< 名 称 > 星海 电视 机 

< 价格 单位 = ' 元 / 台 '>3660 </ 价 格 > 图 4.8 解析 价格 
</ 名 称 > 
< 名 称 > 长 虹 电 视 机 

< 价格 单位 = ' 元 /人 台 '>5285 </ 价 格 > 
</ 名 称 > 


</ 电 视 机 列表 > 
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JAXPFive. java 


import org.w3c. dom. x* ; 
import javax. xml.parsers. 关 ; 
import java. 10. x*; 
public class JAXPF ivel{ 
public static void main(String args[ ]){ 
GiveData give = new GiveData( ); 
try { DocumentBuilderFactory factory = 
DocumentBuilderFactory. newInstance( ); 
DocumentBuilder domPaser = factory. newDocumentBuilder( ); 
Document document = domPaser. parse(new File("example4 5.xml")).; 
NodeList nodeList = document. getChildNodes( ); 
give. output (nodeList); 
System. out. printf(" 平 均 价 格 : 5.2f %s",give.average/give.m,give.mess); 
} 
catch(Exception e){ 
System. out. println(e); 


} 
class GiveDatal 
double average = 0,m= 0; 
String mess; 
public void output(NodeList nodeList){ 
int size = nodeList. getLength( ); 
for(int k= 0;k < size;k++ ){ 
Node node = nodeList. item(k); 
if (node. getNodeType() == Node. TEXT NODE) { 
Text textNode = (Text)node; 
String content = textNode. getWholeText( ); 
System. out. print (content ) ; 
Element parent = (Element)textNode. getParentNode( ); 
boolean boo = (parent. getNodeName( ) ) .equals( "价格 "); 
if(boo == true){ 
content = textNode. getWholeText( ) ; 
average = average + Double. parseDouble(content. trim( ) ) ; 
m++ ; 
} 
if (node. getNodeType() == Node. ELEMENT NODE) { 
Element elementNode = (Element)node; 
String name = elementNode. getNodeName( ) ; 
String id = elementNode. getAttribute(" 单 位"); 
if(id. length( )> 0){ 
System. out. print(name+"("+id+"): "); 
mess = 1d ; 
} 
NodeList nodes = elementNode. getChildNodes( ) ; 


第 4 音 “DO 解析 器 | 71 


output(nodes ) ; 
} 
} 


4.6 Attr 节操 


在 XML 文件 中 ,属性 并 不 是 标记 的 子 标 记 , 因 此 ,在 DOM 规范 中 ,Attr 节点 也 不 是 
Element 节点 的 子 节 点 。 如 果 想 解析 XML 文件 中 标记 的 属性 ,必须 让 对 应 的 Element 节 
点 调用 


NamedNodeMap getAttributes( ) 


方法 。 该 方法 返回 的 NamedNodeMap 对 象 由 节点 组 成 ,这 些 节 点 可 以 被 转换 为 Attr 市 
点 。Attr 万 点 通过 调用 String getName() 方 法 返回 属性 的 名 字 ,调用 String getValue() 
方法 返回 属性 的 值 。 

下 面 例 6 的 Java 程序 输出 了 Element 节点 的 属性 及 属性 的 值 ,运行 效果 如 图 4. 9 
所 示 。 

【 例 6】 


example4 6. xml 


<?xml version= "1.0" encoding = "UTF— 8"?> 


< 应 聘 者 列表 > 姓名 : (学 历 :研究 生 ) 张 三 
< 姓名 学 历 = "研究生 "> 张 三 PE 
< 毕业 学 校 类 型 = "工科 "> 清华 大 学 </ 毕 业 学 校 > 
姓名 : (学 历 : 本 科 )】 张 三 
< 专业 > 土木 工程 </ 专 业 > 毕业 学 校 : 代 开 - 青 和 北京 大 学 
a 专业 : 计算 数学 
< 姓名 学 历 = "本 科 "> 张 三 4.9 获取 属性 的 值 


< 毕业 学 校 ” 类 型 = "理科 "> 北京 大 学 </ 毕 业 学 校 > 
< 专业 > 计算 数学 </ 专 业 > 
</ 姓 名 > 
</ 应 聘 者 列表 > 


JAXPSix. java 


import org.w3c.dom. x* ，; 
import JjJavax. xml.parsers. x*; 
import JjJava. io. x*， 
public class JAXPSix{ 
public static void main(String args[ ] ){ 
GiveData give = new GiveData( ) ; 
try { DocumentBuilderFactory factory = 
DocumentBuilderFactory. newInstance( ); 
DocumentBuilder domPaser = factory. newDocumentBuilder( ); 
Document document = domPaser. parse(new File("example4 6.xml")).; 
Element root = document. getDocumentElement(); 
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NodeList nodeList = root. getChildNodes( ); 
give. output (nodeList); 

} 

catch( Exception e){ 
System. out. println(e); 

} 

} 
} 


class GiveDatal 
public void output(NodeList nodeList){ 
int size = nodeList. getLength( ) ; 
for(int k=0;Kk<size;k++){ 
Node node = nodeList. item(k); 
if (node. getNodeType() == Node.TEXT NODE) { 
Text textNode = (Text)node; 
String content = textNode. getWholeText( ); 
System. out. print(content ); 
} 
if(node. getNodeType() == Node. ELEMENT NODE) { 
Element elementNode = (Element )node; 
String name = elementNode. getNodeName( ) ; 
System. out. print(name+":"); 
NamedNodeMap map = elementNode. getAttributes( ); 
for(int m= 0;m< map.getLength( ) ;m++ ){ 
Attr attrNode = (Attr)map. item(m); 
String attName = attrNode. getName( ); 
String attValue = attrNode. getValue( ) ; 
System. out. print("(" +attName+ ":" +attValue+ ")"); 
} 
NodeList nodes = elementNode. getChildNodes( ); 
output (nodes ) ; 


4.7 DocumentType 贡品 


解析 器 的 parse() 方 法 将 整个 被 解析 的 XML 文件 封装 成 一 个 Document 节点 返回 ， 
Document 节点 的 两 个 子 节 点 的 类 型 分 别 是 DocumentType 类 型 和 Element 类 型 ,其 中 的 
DocumentType 节点 对 应 大 XML 文件 所 关联 的 DTD 文件 ,通过 进一步 获取 该 节点 的 子 
孙 节 点 来 分 析 DTD 文件 中 的 数据 。 而 其 中 的 Element 类 型 节点 对 应 着 XML 文件 的 根 
六 点 ,通过 进一步 获取 该 Element 类 型 厄 点 的 子孙 市 点 来 分 析 XML 文件 中 的 数据 。 如 
果 XML 文件 没有 关联 DID 文件 , Document 市 点 就 只 有 一 个 Element 类 型 的 子 节 点 。 
Document 节点 调用 getDoctype() 人 返回 当前 节点 的 DocumentType 子 节 点 。 

若 XML 文件 中 的 DOCTYPE 声明 为 : 
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<! DOCTYPE 北京 站 始 发 列车 时 刻 表 PUBLIC " - //IS0985/V/China//ForXMLVCh" "time. dtd"> 
那么 DocumentType 节点 调用 getName() 方 法 返回 的 是 : 

北京 站 始 发 列车 时 刻 表 
调用 getPublicId() 方 法 返回 的 是 : 

—//1S0985//China//ForXML/Ch 
调用 getSystemId() 方 法 返回 的 是 : 

time. dtd 


DocumentType 节点 调用 getInternalSubset() 方 法 可 以 返回 内 部 DTD 的 内 容 。 

下 面 的 例 7 通过 DocumentType 节点 获取 DID 的 有 关 信 息 。 例 7 中 的 time. dtd 是 
example4 7. xml 关联 的 外 部 DID 文件 。 例 7 中 的 Java 程序 输出 了 DocumentType 节点 中 
的 数据 ,运行 效果 如 图 4. 10 所 示 。 


【 例 7】 
time. dtd 
字 : 北京 站 始 发 列车 时 刻 表 
<! ELEMENT 北京 站 始 发 列车 时 刻 表 (客车 * ) > ic 标识 : -//IS0985/ /China/ /ForXML/Ch 


tem 标 识 : time. dtd 
部 DTD : aul1 


<! ELEMENT 客车 (车 次 ,开车 时 间 )> 
<!ELEMENT 车 次 (车 PCDRATR)> 

<!ELEMENT 开车 时 间 ( 划 PECDRATR)> 

<! ATTLIST 客车 类 别 CDATA # REOUIRED > 


图 4.10 获取 DTD 的 信息 和 内 容 


example4_7. xml 


<?xml version= "1.0" encoding = "UTF— 8"?> 
<! DOCTYPE 北京 站 始 发 列车 时 刻 表 PUBLIC " -//1S0985//China//ForXML/Ch" "time. dtd"> 
< 北京 站 始 发 列车 时 刻 表 > 
< 客车 类 别 = "特快 "> 
< 车 次 > T259 </ 车 次 > 
< 开车 时 间 > 18:38 </ 开 车 时 间 > 
</ 客 车 > 
< 客车 类 别 = " 普 快 "> 
< 车 次 > K1257 </ 车 次 > 
< 开车 时 间 > 23:12 </ 开 车 时 间 > 
</ 客 车 > 
</ 北 京 站 始 发 列车 时 刻 表 > 


JAXPSeven. java 


import org.w3c. dom. x* ; 
import javax. xml. parsers. x*; 
import java. io. x*; 
public class JAXPSeven{ 
public static void main(String args[ ] ){ 
try { DocumentBuilderFactory factory = DocumentBuilderFactory. newInstance( ); 
DocumentBuilder domParser = factory. newDocumentBuilder( ) ; 
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Document document = domParser. parse(new File("example4 7.xml")).,; 
DocumentType doctype = document. getDoctype( ); 
String DTDName = doctype. getName( ) ; 
System. out. println("DTD 名 字 : " + DTDName); 
String publicId = doctype. getPublicId( ); 
System. out. println("public 标识 : "+ publicId); 
String SVStemId = doctype. getSystemId( ); 
System. out. println("system 标识 : "+ systemId); 
String internalDTD = doctype. getInternalSubset( ); 
System. out. println(" 内 部 DTD: "+ internalDTD); 
} 
catch( Exception e){} 


4.8 处 理 空 白 


不 同 标记 的 开始 标签 与 结束 标签 之 间 的 缩 进 区 域 是 为 了 使 得 XML 文件 看 起 来 更 美 
观 而 形成 的 ,但 解析 上 需 并 不 知道 这 一 点 ,所 以 解析 需 仍 然 认为 它们 是 有 用 的 文本 数据 (由 
空 月 类 字符 组 成 ,如 : \t\n\x0B\f\r)。 
例如 ,对 于 下 列 简 单 的 XML 文件 : 
<?xml version= "1.0” encoding = "UTF— 8" ?> 
<root> 
问候 
<a> hello </a> 
<b> 你 好 </b> 


</root > 


根 节点 对 应 的 Element 节点 有 5 个 Text 子孙 节点 ,其 对 应 关系 如 下 。 

“二 root> "与 “二 a> ”之 间 的 空白 类 字符 和 文本 :“ 问 候 ”; 

“< 一 a> ”与 “一 /a>” 之 间 的 文本 :“hello”; 

“一 /a> ”与 “<<b>” 之 间 的 空白 类 字符 ; 

“一 b> ”与 “一 /b>” 之 间 的 文本 :“ 你 好 ”; 

“一 /> 与 “一 人 /root 二 ”之 间 的 空白 类 字符 。 

人 们 习惯 上 称 标记 之 间 的 缩 进 区 是 可 忽略 空白 ,这 实际 上 不 是 很 准确 ,因为 XML 文 
件 的 标记 可 以 包含 有 文本 和 子 标记 (或 两 者 的 混合 内 容 ) ,在 这 种 情况 下 ,标记 之 间 的 区 域 
中 就 可 能 包含 非 空 白 的 字符 内 容 。 

如 果 我 们 不 允许 标记 混合 内 容 , 即 标记 只 有 子 标记 或 文本 ,在 这 种 情形 下 , 称 标记 之 
间 的 缩 进 区 域 是 可 忽略 空白 就 比较 恰当 ,这 些 空 白 区 确实 是 为 了 使 得 XML 文件 看 起 来 
更 加 美观 而 形成 的 ,这 也 是 它们 存在 的 唯一 目的 。 

如 果 想 让 DOM 解析 需 忽 略 缩 进 空白 , 即 这 些 缩 进 空白 不 在 Document 节点 中 形成 
Text 子 节点 ,那么 XML 文件 必须 是 有 效 的 ,而 且 所 关联 的 DTD 文件 必须 约束 XML 文 
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件 的 标记 不 能 有 混合 内 容 , 同 时 DocumentBuilderFactory 对 象 在 给 出 DOM 解析 器 之 前 ， 
必须 调用 


setIgnoringElementContentWhitespace( boolean whitespace) 


进行 设置 ,将 参数 whitespace 取 值 为 true (true 的 作用 是 忽略 空白 ) 。 

在 下 面 的 例 8 中 ,解析 器 将 忽略 缩 进 空白 ,这 样 , 根 标记 对 应 的 Element 节点 共有 
4 个 Text 子孙 节点 ,运行 效果 如 图 4. 11 所 示 。 

【 例 8】 


bookList. dtd 加 
Java 程 序 设 计 


<?xml version= "1.0" encoding = "UTF— 8" ?> 清华 大 学 出 版 社 
<! DOCTYPE 图 书 列 表 SYSTEM "bookList. dtd"> 二 等 娄 育 出 版 
< 图 书 列 表 > 一 共有 4 个 Text 节 点 
< book> 
< 书 名 > Java 程序 设计 </ 书 名 > 图 4.11 忽略 缩 进 空 白 
< 出 版 社 > 清华 大 学 出 版 社 </ 出 版 社 > 
</book > 
< book > 
< 书 名 > 高 等 数学 </ 书 名 > 
< 出 版 社 > 高 等 教育 出 版 社 </ 出 版 社 > 
</book > 
</ 图 书 列表 > 


example4 8. xml 


<?Xxml version= "1.0" encoding = "UTF— 8”?> 
<! DOCTYPE 图 书 列 表 SYSTEM "bookList. dtd"> 
< 图 书 列 表 > 
< book > 
< 书 名 > Java 程序 设计 </ 书 名 > 
< 出 版 社 > 清华 大 学 出 版 社 </ 出 版 社 > 
</book > 
< book > 
< 书 名 > 高 等 数学 </ 书 名 > 
< 出 版 社 > 高 等 教育 出 版 社 </ 出 版 社 > 
</book > 
</ 图 书 列表 > 


JAXPEight. java 


import org.w3c. dom. x ; 
import JjJavax. xml. parsers. x*; 
import JjJava. io. x*; 
public class JAXPEight{ 
public static void main(String args[ ] ){ 
GiveData give = new GiveDatal( ); 
try { DocumentBuilderFactory factory = DocumentBuilderFactory. newInstance( ) ; 
factory. setIgnoringElementContentWhitespace(true); // 忽 略 缩 进 空白 
DocumentBuilder domPaser = factory. newDocumentBuilder( ); 


76 | X 肌 基础 教程 (第 2 版 ) 


Document document = domPaser. parse(new File("example4 8. xml") ) ; 
NodeList nodeList = document. getChildNodes( ); 
give. output (nodeList ); 
System. out.printf("\n 一 共有 名 d 个 Text 节点 ",give.m); 
} 
catch( Exception e){} 
} 
} 
Class GiveDatal 
int m= 0; 
public void output(NodeList nodeList){ 
int size = nodeList. getLength!( ); 
for(int k= 0;k < size;k++ ){ 
Node node = nodeList. item(k); 
if (node. getNodeType() == Node. TEXT NODE) { 
Text textNode = (Text)node; 
String content = textNode. getWholeText( ) ; 
m++ ; 


System. out. println( content ); 

} 

if (node. getNodeType() == Node. ELEMENT NODE) { 
Element elementNode = (Element )node; 
String name = elementNode. getNodeName( ); 
NodeList nodes = elementNode. getChildNodes( ); 
output (nodes ) ; 


4.9 验证 规 疙 性 和 有 效 性 


JAXP 提供 的 解析 器 默认 地 检查 XML 文件 是 否 是 规范 的 ,并 不 检查 XML 文件 是 否 是 
有 效 的 ,也 就 是 说 ,DOM 解析 需 调 用 parse() 方 法 时 ,如 果 XML 文件 是 规范 的 ,parse() 方 法 
就 返回 一 个 Document 节点 ,否则 将 显示 XML 文件 中 不 符合 规范 的 错误 信息 。 

即使 XML 文件 关联 了 一 个 DTD, 解 析 需 也 并 不 检查 XML 文件 是 否 是 有 效 的 , 即 不 检 
查 XML 文件 是 否 遵守 该 DID 规定 的 限制 条 件 。 如 果 想 要 检查 一 个 XML 文件 是 否 有 效 ， 
必须 让 DocumentBuilderFactory 对 象 factory 事先 设置 是 否 检查 XML 文件 的 有 效 性 ,如 : 


factory. setValidating(true); 


有 关 的 例题 可 参见 第 3 草 的 3. 2 市 。 


4.10 使 用 DOM 生成 XML 文件 


对 于 一 个 给 定 的 XML 文件 ,通过 使 用 解析 需 可 以 在 内 存 中 建立 和 XML 结构 相对 应 的 
树 形 结构 数据 。JAXP 也 能 让 我 们 使 用 内 存 中 的 树 形 结构 数据 建立 一 个 新 的 XML 文件 。 
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4. 10.1 Transformer 对 象 


我 们 已 经 知道 ,解析 需 的 parse() 方 法 将 整个 被 解析 的 XML 文件 封装 成 一 个 
Document 节点 返回 ,这 就 使 得 可 以 对 Document 节点 进行 修改 ,然后 使 用 Transformer 
对 象 将 一 个 Document 节点 变换 为 一 个 XML 文件 (Transformer 类 在 javax. xml. 
transform 包 中 ) 。 

解析 器 可 不 调用 parse() 方 法 ,而 调用 newDocument() 得 到 一 个 Document 节点 ， 
例如 : 


Document document = domParse. newDocument( ) ; 


应 用 程序 可 修改 这 样 的 Document 节点 ,然后 使 用 Transformer 对 象 将 这 个 
Document 节点 变换 为 一 个 XML 文件 。 

使 用 Transformer 对 象 将 一 个 Document 节点 变换 为 一 个 XML 文件 需要 经 过 如 下 
步骤 。 

(1) 使 用 javax. xml. transform 包 中 的 TransformerFactory 类 建立 一 个 对 象 : 


TransformerFactory transFactory = TransformerFactory. newInstance( ) ; 


(2) 使 用 步骤 (1) 中 得 到 的 transFactory 对 象 调 用 newTransformer() 方 法 得 到 一 个 
Transformer 对 和 象 : 


Transformer transformer=transFactory. newTransformer(); 


(3) 将 被 变换 后 得 到 的 Document 对 象 封装 到 一 个 DOMSource 对 象 中 (DOMSource 
类 在 javax. xml. transform. dom 包 中 ) : 


DOMSource domSource = new DOMSource(document ) ; 


(4) 将 变换 后 得 到 的 XML 文件 对 象 封 装 到 一 个 StreamResult 对 象 中 (StreamResult 


类 在 javax. xml. transform. stream 包 中 ): 


File file= new File("newXML. xml" ); 
FileOQutputStream out = new FileOQutputStream(file); 
StreamResult xmlResult = new StreamResult(out); 


(5) Transformer 对 象 transformer 调用 transform() 方 法 实施 变换 . 


transformer. transform( domSource, xmlResult); 


4.10.2 用 于 修改 Document 的 常用 方法 


Node 接口 是 Document 接口 的 父 接口 ,提供 了 许多 用 来 修改 .增加 和 删除 节点 的 
方法 : 
。 Node appendChild(Node newChild) 节点 调用 该 方法 可 以 同 当 前 节点 增加 一 个 新 
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的 子 节 点 ,并 返回 这 个 新 节点 。 

。 Node removeChild(Node oldChild) throws DOMException 节点 调用 该 方法 删除 
参数 指定 的 子 节点 ,并 返回 被 删除 的 子 节点 。 

。 Node replaceChild(Node newChild, Node oldChild) 节点 调用 该 方法 可 以 替换 子 
六 点 ,并 返回 被 蔡 换 的 子 节 点 。 

Element 接口 本 身 除 了 从 Node 接口 继承 的 方法 外 ,还 提供 了 用 来 增加 节点 的 方法 : 

。 Attr removeAttributeNode(Attr oldAttr) 删除 Element 节点 的 属性 。 

。 void setAttribute(String name，String value) 为 Element 节点 增加 新 的 属性 及 属 
性 值 ,如 果 该 属性 已 经 存在 ,新 的 属性 将 蔡 换 旧 的 属性 。 

Text 接口 本 号 除了 从 Node 接口 继承 的 方法 外 ,还 提供 了 用 来 修改 节点 内 容 的 方法 : 

。 Text replaceWholeText(String content) 替换 当前 Text 节点 的 文本 内 容 。 

。 Vold appendData(String arg) 回 当 前 Text 节点 尾 加 文本 内 容 。 

。 vold insertData(int offset ,String arg) 加 当前 Text 节点 插入 文本 内 容 , 插 入 的 位 
置 由 参数 offset 指定 , 即 第 offset 个 字符 的 后 继 位 置 。 

。 void deleteData(int offset ,int count) 删除 当前 节点 的 文本 内 容 中 的 一 部 分 ,被 删 
除 的 范围 由 参数 offset 和 count 指定 , 即 从 第 offset 个 字符 开始 的 后 续 count 个 
字符 。 

。 void replaceData(int offset,int count，String arg) 当前 Text 节点 中 文本 内 容 的 
一 部 分 蔡 换 为 参数 arg 指定 的 内 容 , 被 蔡 换 的 范围 由 参数 offset 和 count 指定 , 即 
从 第 offset 个 字符 开始 的 后 续 count 个 字符 。 


4.10.3 用 DOM 建立 XML 文件 


在 下 面 的 例 9 中 ,有 一 个 关于 银行 营业 时 间 的 example4_9. xml 文件 ,但 是 该 XML 
文件 中 的 “银行 ”标记 没有 名 字 为 “关门 时 间 ” 的 子 标 记 。 例 9 中 的 Java 程序 解析 XML 文 
件 example4_9. xml, 最 后 修改 Document 节点 ,为 “银行 "标记 对 应 的 Element 节点 增加 
新 的 对 应 “关门 时 间 ” 标 记 的 子 节点 ,最 后 使 用 Transformer 得 到 一 个 新 的 XML 文件 : 
newXML.. xml 。 

【 例 9】 


example4 9. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 银行 营业 时 间 > 
< 银行 > 
< 名 称 > 建 设 银行 </ 名 称 > 
< 开门 时 间 > 8:30 </ 开 门 时 间 > 
</ 银 行 > 
< 银行 > 
< 名 称 > 中 国 银行 </ 名 称 > 
< 开门 时 间 > 9:30 </ 开 门 时 间 > 
</ 银行 > 
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</ 银 行营 业 时 间 > 
JAXPNine. java 


import javax. xml.transform. * ; 
import javax. xml.transform. stream. 关 / 
import javax. xml.transform. dom. x ; 
import org.w3c.dom. x* ; 
import javax. xml.parsers. 关 / 
import java. io. x*; 
public class JAXPNine{ 
public static void main(String args[ ] ){ 
ModifyNode modify = new ModifyNode( ); 
try{ DocumentBuilderFactory factory = 
DocumentBuilderFactory. newInstance( ) ; 
DocumentBuilder domParser = factory. newDocumentBuilder( ) ; 
Document document = domParser. parse(new File("example4 9.xml")).; 
Element root = document. getDocumentE1lement( ) :; 
NodeList nodeList = root. getChildNodes( ); 
modify. modifyNode( nodeList, document ); 
TransformerFactory transFactory = TransformerFactory. newInstance!( ) ; 
Transformer transformer = transFactory. newTransformer( ); 
DOMSource domSource = new DOMSource(document) ; 
File file= new File("newXML. xm1”) ; 
FileOutputStream out = new FileOutputStream(file) ; 
StreamResult xmlResult = new StreamResult( out); 
transformer. transform( domSource, xmlResult ); 
out. close( ); 
} 
catch(Exception e){ 
System. out. println(e); 


} 
Class ModifyNode!{ 
int m= 0; 
Document document ; 
public void modifyNode(NodeList nodeList, Document document ){ 
this. document = document ; 
int size = nodeList. getLength!( ); 
for(int k= 0;k< size;k++){ 
Node node = nodeList. item(k); 
if (node. getNodeType() == Node. ELEMENT NODE) { 
Element elementNode = (上 Element )node; 
String name = elementNode. getNodeName( ) ; 
if(name.equals(" 银 行 ") ){ 
Node textN = document . createTextNode( "18:30"); 
Node elementN = document. createElement(" 关 门 时 间 "); 
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elementN. appendChild( textN); 
elementNode. appendChild( elementN); 
} 
NodeList nodes = elementNode. getChildNodes( ); 
modifyNodel( nodes, document) ; 


} 


上 面 例 9 中 的 DOM 解析 器 利用 已 知 的 XML 文件 产生 一 个 Document 对 象 , 然 后 对 
内 存 中 的 Document 对 象 进行 修改 ,生成 如 下 的 XML 文件: newXML. xml。 


newXML. xml 


<?xml version= "1.0" encoding = "UTF— 8" standalone = "no"?> 
< 银行 营业 时 间 > 
< 银行 > 
< 名 称 > 建 设 银 行 </ 名 称 > 
< 开门 时 间 > 8:30 </ 开 门 时 间 > 
< 关门 时 间 > 18:30 </ 关 门 时 间 > 
</ 银 行 > 
< 银行 > 
< 名 称 > 中 国 银 行 </ 名 称 > 
< 开门 时 间 > 9:30 </ 开 门 时 间 > 
< 关门 时 间 > 18:30 </ 关 门 时 间 > 
</ 银行 > 
</ 银 行营 业 时 间 > 


在 下 面 的 例 10 中 ,DOM 解析 颖 不 再 使 用 已 经 存在 的 XML 文件 , 即 不 再 去 解析 一 个 
已 存在 的 XML 文件 ,而 是 调用 newDocument( ) : 


Document document = domPaser. newDocument( ) ; 


得 到 一 个 Document 节点 ,然后 为 Document 节点 增加 新 的 子孙 节点 ,最 后 使 用 Transformer 
得 到 一 个 新 的 XML 文件 student. xml, 用 浏览 器 打开 student. xml 的 效果 如 图 4. 12 所 示 。 


<?xml version="1.0" encoding="UTF-8" standalone="no" ?> 


< 姓名 > 辛 如 学 </ 姓 名 > 
< 学 号 >201001</ 学 号 > 
</ 学 生 > 
- < 学 生 > 
< 姓名 > 网 尚 学 < /姓名 > 
< 学 号 >201002< /学 号 > 
</ 学 生 > 
- < 学 生 > 
< 姓名 > 楚 进 校 </ 姓 名 > 
< 学 号 >201003</ 学 号 > 
</ 学 生 > 
</ 学 生 列表 > 


4.12 用 DOM 生成 的 XML 文件 
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【 例 10】 


JAXPTen. java 


import JavVax. xml.transform. x* ; 
import javax. xml.transform. stream. x* ; 
import Javax. xml.transform. dom. *; 
import org.w3c. dom. x* ; 
import javax. xml. parsers. *; 
import java. io. 关 ; 
public class JAXPTen{ 
public static void main(String args[ ] ){ 
try { String [] studentName = {" 半 如 学 ", " 纲 尚 学 "," 楚 进 校 "}; 
String [ ] studentNumber = {"201001","201002","201003"}; 
DocumentBuilderFactory factory = DocumentBuilderFactory. newInstance( ) ; 
DocumentBuilder domPaser = factory. newDocumentBuilder( ); 
Document document = domPaser. newDocument ( ) ; 
document. setXmlVersion("1.0"); 
Element root = document. createElement( "学 生 列 表 ”) ; 
document. appendChild( root); 
for(int k=1;k<= studentName. length;k++){ 
Node node = document. createElement( "学生 "); 
root. appendChild( node); 
} 
NodeList nodeList = document. getElementsByTagName( "学 生 "); 
int size = nodeList. getLength( ); 
for(int k= 0;k<size;k++){ 
Node node = nodeList. item(k); 
if(node. getNodeType() == Node. ELEMENT NODE){ 
Element elementNode = (Element )node; 
Node nodeName = document. createElement(" 姓 名 "); 
Node nodeNumber = document. createElement ("学 号 "); 
nodeName. appendChild( document. createTextNode( studentName[ k |])); 
nodeNumber. appendChild( document. createTextNode( studentNumber[k|)); 
elementNode. appendChild( nodeNanme); 
elementNode. appendChild( nodeNumber ); 


} 
TransformerFactory transFactory = TransformerFactory. newInstance( ); 
Transformer transformer = transFactory. newTransformer( ); 
DOMSource domSource = new DOMSource( document ); 
File file = new File("student. xml"); 
FileOQutputStream out = new FileOutputStream(file); 
StreamResult xmlResult = new StreamResult (out); 
transformer. transform( domSource, xmlResult); 
out. close( ); 

} 

catch( Exception e){ 
System. out. println(e); 


82 | X 肌 基础 教程 (第 2 版 ) 


习题 4 


1. Document 节点 的 两 个 子 节 点 分 别 是 什么 类 型 ? 

2. 被 解析 的 XML 文件 的 标记 和 Document 节点 的 哪 种 类 型 的 子孙 节点 相对 应 ? 

3. 请 编写 一 个 Java 程序 (参考 例 5) ,使 用 DOM 解析 器 解析 下 列 XML 文件 ,要求 输 
出 各 个 标记 的 名 字 以 及 标记 包含 的 文本 数据 ,并 计算 出 “数学 ”和 ”物理 ”的 平均 成 绩 。 

Xiti3. Xml 


<?xml version= "1.0" encoding= "UTF—8" ?> 
< 成 绩 单 > 
< 张 二 > 
< 数学 > 89 </ 数 学 > 
< 物理 > 78 </ 物 理 > 
</ 张 三 > 
< 村 四 > 
< 数学 > 67 </ 数 学 > 
< 物理 > 80 </ 物 理 > 
</ 李 四 > 
</ 成 绩 单 > 


SAX 解析 器 


主要 内 容 

。 初 识 SAX 解析 器 
文档 开始 与 结束 事件 
。 标记 开始 与 结束 事件 
。 文本 事件 

。 名 称 空间 事件 

。 错误 事件 

。 处 理 空白 


上 一 章 我 们 学 习 了 基于 DOM 的 解析 器 ,通过 DOM 解析 器 应 用 程序 ,从 XML 文件 
中 解析 出 所 需要 的 数据 。DOM 解析 器 的 核心 是 在 内 存 中 建立 和 XML 文件 相对 应 的 树 形 
结构 数据 ,XML 文件 的 标记 、 标 记 包 含 的 文本 内 容 等 都 会 和 内 存 中 树 形 结构 数据 的 某 个 节 
点 相对 应 。 使 用 DOM 解析 器 的 好 处 是 一 个 应 用 程序 可 以 方便 地 操作 内 存 中 树 的 节点 来 处 
理 XML 文档 ,获取 所 需要 的 数据 。 但 DOM 解析 器 也 有 不 足 之 处 ,如 果 XML 文件 较 大 , 相 
应 的 Document 对 象 就 要 占用 较 多 的 内 存 空间 ,另外 ,应 用 程序 可 能 并 不 需要 XML 文件 的 
全 部 数据 ,而 只 是 需要 一 部 分 ,但 为 了 获取 这 一 部 分 数据 却 付 出 了 较 大 的 空间 代价 。 

本 章 讲述 基于 事件 的 解析 器 : SAX 解析 器 。Sun 公司 发 布 的 JDK1.5 的 后 续 版 本 中 
提供 了 基于 事件 来 解析 XML 文件 的 API( 支 持 SAX 2.0)。 和 DOM 解析 需 不 同 的 是 ， 
SAX 解析 器 不 在 内 存 中 建立 和 XML 文件 相对 应 的 树 形 结 构 数 据 , 其 核心 是 事件 处 理 机 
制 。 和 DOM 解析 器 相 比 ,SAX 解析 器 占用 的 内 存 少 ,对 于 许多 应 用 程序 ,使 用 SAX 解 
析 需 来 获取 XML 数据 具有 较 高 的 效率 。 

DOM 解析 器 和 SAX 解析 器 各 有 所 长 和 不 足 , 不 能 说 哪个 解析 器 更 好 ,只 有 很 好 地 
掌握 了 它们 的 工作 原理 ,才能 针对 具体 的 问题 选择 恰当 的 解析 器 。 


5.1 初 识 SAX 解析 如 


S.1.1 SAX 解 析 器 及 其 工作 原理 


SAX(Simple API for XML) 提 供 了 解析 XML 文件 的 API, 基 于 SAX 的 解析 器 称 为 
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SAX 解析 船 。SAX 解析 各 的 核心 是 事件 处 理 机 制 ,SAX 解析 带 调 用 


parse(File f, DefaultHandler dh) 


方法 解析 参数 f 指定 的 XML 文件 ,并 加 该 方法 的 参数 dh 传递 一 个 事件 处 理 器 。SAX 解 
析 需 在 解析 XML 文件 的 过 程 中 ,根据 从 文件 中 解析 出 的 数据 产生 相应 的 事件 ,并 报告 这 
个 事件 给 事件 处 理 需 dh, 事 件 处 理 占 dh 在 处 理事 件 时 就 会 处 理 所 发现 的 数据 ,parse() 
方法 必须 等 待 事件 处 理 需 dh 处 理事 件 完 毕 后 再 继续 解析 文件 ,报告 下 一 个 事件 给 事件 
处 理 帮 dh。 当 parse() 方 法 在 解析 文件 的 过 程 中 ,发 现 已 经 解析 完全 部 的 内 容 , 即 发 现 了 
XML 文件 的 根 标记 的 结束 标签 时 ,将 报告 一 个 文档 结束 事件 给 处 理 需 ,不 再 继续 解析 文 
档 , 即 结束 parse() 方 法 的 执行 。SAX 解析 器 的 工作 原理 如 图 5.1 所 示 。 


事件 处 理 硕 
处 理 " 文 档 结束 ”事件 


处 理 非 ”文档 结束 "事件 


5.1 SAX 解析 需 的 工作 原理 


从 SAX 解析 需 的 工作 原理 可 以 看 出 SAX 解析 需 较 DOM 解析 逢 有 更 高 的 效率 ,这 
是 因为 事件 处 理 融 每 次 在 内 存 中 只 保留 对 一 个 事件 的 处 理 , 处 理 完 毕 即刻 释放 该 处 理 过 
程 所 占用 的 内 存 。 可 以 想象 , 奋 XML 文件 中 许多 标记 包含 的 文本 数据 都 含有 相当 多 的 
字符 ,在 这 种 情况 下 ,使 用 DOM 解析 融 将 会 在 内 存 中 建立 占用 较 大 内 存 的 树 形 结构 数 
据 ,导致 过 多 地 消耗 系统 的 内 存 资 源 。 如 果 使 用 SAX 解析 天, 就 可 以 轻松 地 获取 这 些 标 
记 包 含 的 文本 数据 ,因为 SAX 解析 副 把 标记 包含 的 文本 数据 按 顺序 分 成 寿 干 个 “文本 " 事 
件 报告 给 事件 处 理 硕 ( 见 5.4 市 )。 


5.1.2 创建 SAX 解 析 器 的 步骤 与 事件 处 理 


首先 简单 地 了 解 一 下 SAX 解析 人 胡 , 有 关 细 节 将 在 后 续 小 节 分 别 讲述 。 

1. 创建 SAX 解析 器 的 步骤 

(1) 使 用 javax. xml. parsers 包 中 的 SAXParserFactory 类 调用 其 类 方法 newlInstance() 
实例 化 一 个 SAXParserFactory 对 象 


SAXParserFactory factory = SRAXParserEactory. newInstance( ); 


(2) 使 用 factory 对 象 调 用 newSAXParser( ) 方 法 返回 一 个 SAXParser 对 象 (SAXParser 
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类 在 javax. xml. parsers 包 中 ) : 


SAXParser saxParser = factory. newSAXParser( ) ; 


其 中 SAXParser 对 象 称 为 SAX 解析 人 需 。 

2. 事件 处 理 器 

SAX 解析 天 使 用 下 述 parse() 方 法 解析 XML 文件 : 

。 public vold parse(File {f, DefaultHandler dh) throws SAXException .IOException 

。 public vold parse(InputStream 1s, DefaultHandler dh) throws SAXException ,IOException 

。 public vold parse( String uri, DefaultHandler dh) throws SAXException,IOException 

。 vold parse(String uri) throws IOException, SAXException 

上 述 parse() 方 法 的 参数 dh 是 DefaultHandler 类 型 ,解析 器 调用 parse() 方 法 时 , 必 
须 回 dh 传递 一 个 DefaultHandler 类 或 DefaultHandler 类 的 子 类 的 对 象 ,DefaultHandler 
类 是 org. xml. sax. helpers 包 中 的 类 ,该 类 或 其 子 类 的 对 象 称 为 SAX 解析 此 的 事件 处 理 
合 。SAX 解析 侣 调用 parse() 方 法 解析 XML 文件 ,根据 从 XML 文件 中 解析 出 的 数据 产 
生 相 应 的 事件 ,并 报告 这 个 事件 给 事件 处 理 需 dh, 事 件 处 理 需 dh 就 会 处 理 所 解 析出 的 数 
据 。 DefaultHandler 类 是 实现 了 ContentHandler、DTDHandler、EntityResolver 和 
ErrorHandler 接口 的 类 ,也 就 是 说 ,DefaultHandler 定义 了 依据 SAX 解析 器 报告 的 事件 
类 型 事件 处 理 带 dh 应 该 调用 的 方法 ,例如 , 当 解析 需 解 析出 一 个 标记 的 开始 标签 时 ,就 
将 解析 出 的 数据 封装 为 一 个 “标记 开始 ?事件 ,并 报告 该 事件 给 事件 处 理 囊 ,事件 处 理 和 就 
会 知道 所 发 生 的 事件 ,然后 对 应 地 调用 


startElement(String uri, String localName, String qName, Attributes atts) 


方法 对 解析 出 的 数据 做 出 处 理 , 方 法 中 的 参数 atts 是 解析 器 发 现 的 标记 的 全 部 属性 , 参 
数 uri 是 解析 需 发 现 的 标记 的 名 称 空间 ,localName 是 标记 的 名 称 ,qName 是 带 名 称 空间 
前 级 的 标记 名 称 或 标记 的 名 称 (依赖 于 该 标记 是 否 有 名 称 空间 )。 如 果 标 记 没 有 名 称 空 
间 ,uri 值 为 null( 有 关 startElement() 方 法 的 细节 见 5.4 节 )。 

3. 事件 的 产生 与 处 理 

SAX 解析 上 需 的 核心 是 事件 处 理 机 制 , 当 SAX 解析 需 调 用 parse( ) 方 法 解析 XML 文 
件 时 ,事件 处 理 需 会 根据 所 产生 的 事件 类 型 调用 相应 的 方法 来 处 理发 现 的 数据 。 在 编写 
程序 时 ,需要 使 用 DefaultHandler 类 的 子 类 创建 一 个 事件 处 理 右 , 当 事 件 处 理 器 对 报告 
的 事件 类 型 不 感 兴 趣 时 ,就 直接 调用 从 父 类 继承 的 方法 ,采用 默认 的 处 理 方式 ( 父 类 方法 
的 方法 体 中 没有 有 具体 的 处 理 语句 ), 当 事件 处 理 需 对 报告 的 事件 类 型 感 兴趣 时 , 子 类 就 可 


以 重 写 父 类 的 某 些 方法 ,并 调用 重 写 的 方法 ,以 便 事 件 处 理 器 ee 
可 以 具体 地 处 理解 析 器 发 现 的 数据 。 eR 


在 下 面 的 例 1 中 ,通过 解析 一 个 简单 的 XML 文件 ,观察 和 > 
事件 处 理 器 是 如 何 处 理解 析 器 报告 的 有 关 事 件 的 ,有 关 细 节 [区 蓉 员 3 韦 尖 和 
将 在 后 续 的 章节 中 讲述 , 例 1 中 SAXOne. java 的 运行 效果 如 


_ 图 5.2 使 用 SAX 解析 
图 5. 2 所 示 。 


骼 解析 数据 
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【 例 1] 


examples _ 1. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 雇员 列表 > 
< 雇员 > 
< 姓名 > 张 小 三 </ 姓 名 > 
< 性 别 > 男 </ 性 别 > 
</ 雇 员 > 
</ 雇 员 列 表 > 


SAXOne. java 


import org. xml. sax. helpers. x ; 
import org. xml. sax. *，; 
import java. io. x*; 
public class SAXOne{ 
public static void main(String args[ ] ){ 
try{ File file= new File("example5 1.xml”) ; 
SAXParserFactory factory = SAXParserFactory. newInstance() :; 
SAXParser saxParser = factory. newSAXParser( ); 
EventHandler handler = new EventHandler( ); // 事 件 处 理 器 
saxParser. parse(file, handler); 
System. out. println(" 事 件 处 理 融 人 处理 了 " + handler. count + "个 事件 "); 
} 
catch( Exception e){ 
System. out. println(e); 


} 
class EventHandler extends DefaultHandler{ 
int count = 0; 
public void startElement(String uri, String localName, String qName, Attributes atts){ 
System. out. print("<" + qName + ">"); 
Count++ ; 
} 
public void endElement (String uri, String localName, String qName){ 
System. out. print("</" + qName + ">"); 
Count++ ; 
} 
public void characters(char[ | ch, int start, int length)!{ 
String text = new String(ch, start, length); 
System. out. print(text); 
Count++ ; 
} 
public void startDocument( ){ 
System. out. println(" 开 始 解 析 XML 文件 "); 
Count++ ; 


} 
public void endDocument( ){ 
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System. out. println(" 解 析 过 程 结 束 ") ; 
Count++ ; 


Am 


从 上 面 的 例 1 可 以 看 出 ,解析 需 在 调用 parse() 方 法 的 过 程 中 ,事件 处 理 需 处 理 了 
17 个 如 下 的 事件 ,如 表 5. 1 所 示 ( 按 处 理 的 顺序 排列 ) 。 
表 5.1 事件 的 产生 与 处 理 


事件 类 型 事件 处 理 器 调用 的 方法 
文档 开始 startDocument() 


3 
中 


oo 


发 现 的 数据 
1 | XML 文件 
2 | “雇员 列表 ”开始 标签 ; 二 雇员 列表 二 startElement(String uri, String localName， 
3 | 二 雇员 列表 > 与 一 雇员 > 之 间 的 空白 字符 
4 | “雇员 ?开始 标签 : 二 雇员 二 
5 | 过 雇员 > 与 二 姓名 > 之 间 的 空白 字符 
“姓名 ”开始 标签 : 二 姓名 二 
7 |“ 姓 名 ”标记 包含 的 文本 内 容 

“姓名 ?结束 标签 : 二 /姓名 二 
9 | 二 /姓名 二 与 二 性 别 汪 之 间 的 空白 字符 
10 | "性别 ?开始 标签 : 二 性 别 二 
11 |“ 性 别 ” 标 记 包 含 的 文本 内 容 
12 |“ 性别” 结束 标签 : 过 /性 别 二 标记 结束 
13 | 二 /性 别 二 与 二 /雇员 二 之 间 的 空白 字符 
14 |“ 雇 员 ” 结 束 标签 : 二 /雇员 二 
15 | 二 /雇员 二 与 二 /雇员 列表 二 之 间 的 空白 字符 
16 |“ 雇 员 列 表 ” 结 束 标签 : 二 /雇员 列表 二 
17 | XML 文件 结束 


二 记 开 
标记 开始 String qName, Attributes atts) 
文本 characters(char[ | ch,int start, int length) 
startElement(String uri, String localName， 
标记 开始 . 

String qName, Attributes atts) 
文本 characters(char[ | ch,int start,int length) 


startElement(String uri, String localName， 


[ee] 


标记 开始 

String qName, Attributes atts) 
characters(char[l | ch,int start, int length) 
_、 endElement( String uri, String 
标记 结束 | 
localName, String qName) 
文本 characters(charl[ | ch,int start, int length) 
_， startElement(String uri, String localName, 
标记 开始 . 

String qName, Attributes atts) 
characters(char[ | ch,int start,int length) 


a [ed 
讨 讨 


endElement(String uri, String 
local Name, String qName) 
文本 characters(charl[ | ch,int start, int length) 
_、 endElement(String uri, String 
标记 结束 | 
local Name, String qName) 


文本 characters(charl[ | ch,int start, int length) 


a local Name, String qName) 
文档 结束 endDocument() 


endElement(String uri, String 


注意 :尽管 相对 DOM 解析 器 ,SAX 解析 器 更 加 节省 资源 ,但 是 ,SAX 解析 器 也 有 不 
足 之 处 ,例如 ,为 了 获取 “性 别 ” 标 记 和 包含 的 文本 内 容 , 事 件 处 理 器 要 事先 处 理 10 个 事件 。 


5.2 文档 开始 与 结束 事件 


当 解 析 各 开始 解析 XML 文件 时 ,就 会 报告 "文档 开始 ?事件 给 事件 处 理 融 ,然后 再 陆 
续 地 报告 其 他 的 事件 ,例如 “标记 开始 “文本 ”事件 等 ,最 后 报告 “文档 结束 ”事件 。 解 析 
需 报 告 “ 文 档 开 始 ? 事 件 ,事件 处 理 需 就 会 调用 startDocument() 方 法 ; 解析 需 报 告 “ 文 档 
结束 ”事件 ,事件 处 理 需 就 会 调用 endDocument() 方 法 。 解 析 需 在 解析 XML 文件 的 过 程 
中 只 能 报告 一 次 “文档 开始 "事件 和 “文档 结束 ”事件 。 
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下 面 的 例 2 中 ,事件 处 理 器 重 写 父 类 的 startDocument() 和 endDocument() 方 法 ,以 
便 按照 特殊 的 意图 来 处 理 “ 文 档 开始 ”事件 和 “文档 结束 ”事件 ”。“ 文 档 开始 ”事件 发 生 后 ， 
事件 处 理 希 显示 XML 文件 的 长 度 , “文档 结束 ”事件 发 生 后 ,事件 处 理 胡 显示 解析 融 解 析 
整个 XML 文件 所 用 的 时 间 。 在 例 2 中 ,事件 处 理 器 对 解析 器 报告 的 其 他 事件 采用 默认 
的 处 理 方 式 , 即 事件 处 理 需 直接 调用 从 父 类 继承 的 方法 ,这 些 方法 的 方法 体 里 没有 有 具体 
的 语句 ,这 样 就 减少 了 事件 的 处 理 时 间 。 例 2 中 SAXTwo. java 的 运行 效果 如 图 5. 3 
所 示 。 

【 例 2】 


examples 2. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> ee 
< 图 书信 息 > 用 时 全 :0 
< 图 书 > 
< 名 称 > XML 基础 教程 (第 2 版 )</ 名 称 > 5.3 ”处理 “文档 ”事件 
< 价钱 > 26 元 </ 价 钱 > 
</ 图 书 > 
< 图 书 > 
< 名 称 > JSP 基础 教程 (第 2 版 )</ 名 称 > 
< 价钱 > 28 元 </ 价 钱 > 
</ 图 书 > 
</ 图 书信 息 > 


SAXTwo. java 


import JjJavax. xml.parsers. *，; 
import org. xml. sax. helpers. x*，; 
import org. xml. sax. *，; 
import java. io. 关 ; 
public class SAXTwo{ 
public static void main(String args[ ] ){ 
try{ File file= new File("example5 2.xml" ); 
SAXParserFactory factory = SAXParserFactory. newInstance() ; 
SAXParser saxParser = factory. newSAXParser( ); 
EventHandler handler = new EventHandler(file); 
saxParser. parse(file, handler); 
} 
catch( Exception e){ 
System. out. println(e); 
} 
} 
} 
class EventHandler extends DefaultHandler{ 
File file; 
long timeStart = 0,timeEnd = 0; 
public EventHandler(File f){ 
file=f; 
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} 
public void startDocument( ) { 
timeStart = System. CurrentTimeMillis(); 


System. out. println(" 开 始 解 析 XML 文件 "); 

System. out. println( "文件 长 度 : " + file. length()); 
} 
public void endDocument ( ){ 


timeEnd = System. currentTimeMillis( ); 


System. out. println( "解析 过 程 结束 "); 
System. out. println(" 所 用 时 间 : "+ (timeEnd 一 timeStart) + "上 毫秒 "); 


5.3 标记 开始 与 结束 事件 


当 解 析 邢 发 现 一 个 标记 的 开始 标签 时 , 束 将 所 发 现 的 数据 封 交 为 一 个 “标记 开始 事 
件 ,并 报告 该 事件 给 事件 处 理 希 ,事件 处 理 硕 就 会 知道 所 发 生 的 事件 ,然后 调用 


startElement( String uri, String localName, String qName, Attributes atts ) 


方法 对 发 现 的 数据 做 出 处 理 。 参 数 atts 是 解析 器 发 现 的 开始 标签 中 定义 的 全 部 属性 。 
当 SAXParserFactory 对 象 设置 为 支持 名 称 空间 时 , 即 相当 于 


factory. setNamespaceAware( true); 


上 述 方法 中 的 参数 uri 的 取 值 就 是 解析 响 发 现 的 标记 所 隶属 的 名 称 空间 的 名 字 、 参 数 
localName 的 取 值 是 标记 的 名 称 、 参 数 qName 的 取 值 是 带 名 称 空间 前 级 的 标记 名 称 ( 如 
果 有 名 称 空间 的 前 级 ) 或 标记 名 称 (如 有 果 没 有 名 称 空间 的 前 级 )。 

当 SAXParserFactory 对 象 未 设置 为 支持 名 称 空 间 时 , 即 相 当 于 : 


factory. setNamespaceAware( false); 


那么 上 述 方 法 中 的 参数 un 和 localName 的 取 值 是 空 字符 组 成 的 串 , 即 un 二"" ,localName 王 ""， 
参数 qName 的 取 值 是 标记 名 称 。 

事件 处 理 需 调用 startElement() 方 法 后 ,将 陆续 地 收 到 解析 上 需 报 告 其 他 的 事件 ,例如 
“文本 ”事件 , 子 标记 的 “标记 开始 ”事件 等 。 由 于 XML 文件 中 的 非 空 标记 一 定 有 结束 标 
签 , 所 以 对 同一 个 非 空 标记 ,解析 希 报 告 完 该 标记 的 “标记 开始 ?事件 后 ,一定 还 会 报告 该 
标记 的 “标记 结束 "事件 ,事件 处 理 需 就 会 知道 所 发 生 的 事件 ,然后 调用 

endElement (String uri, String localName, String qName ) 
方法 对 发 现 的 数据 做 出 处 理 。 


如 有 果 一 个 标记 是 空 标记 ,解析 侣 也 报告 “标记 开始 "事件 和 “标记 结束 ”事件 , 即 解 析 融 
将 名 字 为 “nullName” 的 空 标记 按 不 包含 任何 字符 的 非 空 标记 : 
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<nullName ></nullName > 


来 处 理 。 


下 面 例 3 中 的 解析 器 解析 出 了 XML 文件 中 标记 的 个 数 以 及 标记 的 名 称 。 例 3 中 
SAXThree. java 的 运行 效果 如 图 5.4 所 示 。 
【 例 3】 


examples 3. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 首都 列表 > 
< 中 国 xmlns:ch= "China"> 
<ch: 首 都 区 号 = "86"> 北京 </ch: 首 都 > 
</ 中国 > 
< 美国 xmlns:US = "UnitedStates"> 
<US: 首 都 区 号 = "01"> 华盛顿 </US: 首 都 > 
</ 美 国 > 
< 南极 /> 
</ 首 都 列表 > 


图 5.4 处理 “标记 "事件 


SAXThree. java 


import jJavax. xml.parsers. *,; 
import org. xml. sax. helpers. *; 
import org. xml. sax. 关 ; 
import Java. io. 关 ; 
public class SAXThree{ 
public static void main(String args[ ] ){ 
try { File file= new File("example5 3.xml"); 
SAXParserFactory factory = SAXParserFactory. newInstance() ; 
factory. setNamespaceAware( true); 
SAXParser saxParser = factory. newSAXParser( ) ; 
EventHandler handler = new EventHandler( ); 
saxParser. parse(file, handler); 
} 
catch( Exception e){ 
System. out. println(e); 


} 
class EventHandler extends DefaultHandler{ 
int count = 0; 
public void startElement( String uri, String localName, 


String qName, Attributes atts){ 
Count++ ; 


System. out. print("<" +qName+" "); 

for(int k=0;k<atts. getLength() ;k++){ 
System. out. print(atts. getLocalName(k)+"= "); 
System. out. print("\"" +atts. getValue(k) + "\""); 
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System. out. println( ">" ); 
if(uri. length( )> 0) 
System. out. println( "标记 隶属 的 名 称 空 间 是 " + uri); 
} 
public void endElement (String uri, String localName, String qName){ 
System. out. println("</" + qName + ">"); 
} 
public void endDocument( ){ 
System. out. printf("\n 解析 过 程 结束 ,共有 名 d 个 标记 " ,count); 
} 


5.4 文本 事件 


XML 文件 中 非 空 标记 包含 的 内 容 中 可 以 有 文本 , 当 解 析 带 解析 这 些 文本 数据 时 ,就 
报告 "文本 ?事件 给 事件 处 理 需 ,事件 处 理 船 就 会 知道 所 发 生 的 事件 ,然后 调用 


public void characters(char[ | ch, int start, int length) 


方法 对 标记 包含 的 文本 做 出 处 理 , 参 数字 符 数 组 ch 中 存放 的 就 是 该 方法 待 处 理 的 文本 数 
据 ,start 是 数组 ch 中 存放 字符 的 起 始 位 置 ,length 是 存放 的 字符 的 个 数 。 需 要 注意 的 
是 ,字符 数组 ch 中 存放 的 不 一 定 是 标记 包含 的 全 部 文本 ,可 能 只 是 标记 包含 的 全 部 文本 
的 一 部 分 。 

标记 的 标签 之 间 形 成 的 缩 进 区 域 都 是 为 了 使 得 XML 文件 看 起 来 更 加 美观 而 形成 
的 ,但 解析 侣 并 不 知道 这 一 点 ,所 以 解析 融 仍 然 认 为 它们 是 有 用 的 文本 数据 , 当 解 析 融 发 
现 这 样 的 数据 时 ,也 会 报告 一 个 “文本 ”事件 给 事件 处 理 带 。 

需要 特别 注意 的 是 ,对 于 标记 包含 的 文本 数据 ,解析 需 可 能 将 这 些 文本 分 成 儿 个 连续 
的 “文本 ”事件 报告 给 事件 处 理 带 。 例 如 ,对 于 : 


< hello> 您 好 ,很 高 兴 认 识 您 ! </hello> 


解析 器 将 标记 hello 包含 的 文本 数据 ,并 用 一 个 “文本 ”事件 报告 给 事件 处 理 器 ,“ 文 本 " 事 
件 报告 的 文本 数据 是 :“ 您 好 ,很 高 兴 认识 您 !"。 而 对 于 


<hello> 

您 好 ， 

很 高 兴 认 识 您 ! 
</hello> 


解析 器 将 标记 hello 中 的 文本 数据 分 成 4 个 “文本 ”事件 报告 给 事件 处 理 器 。 第 一 次 “ 文 
本 ”事件 报告 的 文本 是 “二 hello 二 ”和 “您 好 ,” 之 间 的 空白 字符 ,第 二 次 “文本 ”事件 报告 的 
文本 是 “您 好 ,” 以 及 后 继 的 空白 字符 ,第 三 次 “文本 ”事件 报告 的 文本 是 “很 高 兴 认 识 您 1”， 
第 四 次 “文本 ”事件 报告 的 文本 是 “二 /hello 二 ”之 前 的 全 部 空白 字符 。 

例 4 中 统计 了 解析 器 报告 的 “文本 ”事件 的 次 数 以 及 所 处 理 的 文本 ,其 中 SAXFour. 
java 的 运行 效果 如 图 5. 5 所 示 。 
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【 例 4】 
examples 4. xml 
<?xml version= "1.0”encoding= "UTF— 8" ?> 1 次 文本 事件 处 理 的 文 z 四 
次 文本 事件 处 理 的 文本 
< 应 聘 者 简历 > 3 次 文本 事件 处 理 的 文本 是 " 张 三 * 
次 文本 事件 处 理 的 文本 是 
< 应 聘 者 > 5 A 
次 文本 事件 处 理 的 文本 
< 姓名 > 张 三 </ 姓 名 > T 次 文本 事 诈 处理 的 文本 是 补 字 符 
， 次 文本 事件 处 理 的 文本 
< 蛙 业 学 校 > 清华 大 学 </ 毕 业 学 校 > 3 次 文本 事件 处理 的 六 本 是 有 ，， 
</ 应 聘 者 > Wn 次 文本 事件 处 理 的 文本 是 白字 符 | 
< 应 聘 者 > 12 次 文本 事件 处 理 的 文本 是 全 和 字符 
< 姓名 > 李 四 </ 姓 名 > 
< 毕业 学 校 > 北 京 大 学 </ 毕 业 学 校 > 图 5.5 处 理 “ 文 本 ”事件 
</ 应 聘 者 > 
</ 应 聘 者 简历 > 
SAXFour. java 


import javax. xml. parsers. 关 ; 
import org. xml. sax. helpers. *; 
import org. xml. sax. 关 ; 
import java. io. 关 ; 
public class SAXFour{ 
public static void main(String args[ ] ){ 
try { File file= new File("example5 4.xml"); 
SAXParserFactory factory = SAXParserFactory. newInstance() ; 
SAXParser saxParser = factory. newSAXParser( ); 
EventHandler handler = new EventHandler( ); 
saxParser. parse(file, handler); 
} 
catch( Exception e){ 
System. out. println(e); 


} 
class EventHandler extends DefaultHandler{ 
int 七 extEVventCount 
public void characters(char[ | ch, int start, int length){ 
textEventCount++ ; 
String text = new String(ch, start, length); 
text = text. trim( ); 
if(text. length() == 0) 
System. out. println(" 第 " + textEventCount + " 次 文本 事件 处 理 的 文本 是 空白 字符 "); 


else 


System. out. Println(" 第 "+ textEventCount + ”次 文本 事件 处 理 的 文本 是 \"" + text+ "\""); 


} 


标记 的 文本 数据 是 应 用 程序 非常 关心 的 数据 ,在 下 面 的 例 5 中 ,解析 需 分 别 输出 了 每 
个 学 生 的 总 成 绩 , 以 及 “数学 成 绩 ”" 和 “英语 成 绩 ” 的 平均 成 绩 。 例 5 中 SAXFive. java 的 运 
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行 效果 如 图 5.6 所 示 。 
【 例 5】 


examples _S. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 成 绩 单 > 
< 学 生 > 
< 姓名 > 张 三 </ 姓 名 > 
< 数学 成 绩 > 89 </ 数 学 成 绩 > 
< 英语 成 绩 > 77 </ 英 语 成 绩 > 
</ 学 生 > 
< 学 生 > 
< 姓名 > 李 四 </ 姓 名 > 
< 数学 成 绩 > 92 </ 数 学 成 绩 > 
< 英语 成 绩 > 65 </ 英 语 成 绩 > 图 5.6 “文本 "事件 的 有 关 计 算 
</ 学 生 > 
</ 成 绩 单 > 


SAXFive. java 


import jJavax. xml. parsers. # ; 


import org. xml. sax. helpers. x*; 
import org. xml. sax. 关 ; 
import java. io. x*; 
public class SAXF ivel{ 
public static void main(String args[ ]){ 
try { File file= new File("example5 5.xml"); 
SAXParserFactory factory = SAXParserFactory. newInstance() ; 
SAXParser saxParser = factory. newSAXParser( ) ; 
EventHandler handler = new EventHandler( ); 
saxParser. parse(file, handler); 
} 
catch(Exception e){ 
System. out. println(e); 


} 
class EventHandler extends DefaultHandler{ 
boolean isComputabled, math, english; 
int count; 
double mathSum, englishSum, personSum; 
StringBuffer numberContent, otherContent ; 
public void startElement( String uri, String localNanme, 
String qName, Attributes atts ){ 
numberContent = new StringBuffer( ) ; 
otherContent = new StringBuffer( ); 
System. out. print("<" + qName + ">"); 
if(qName. endsWith( "成 绩 ")) 
isComputabled = true; 
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if(qName. startsWith(" 数 学")) 
math= true; 
if(qName. startsWith( "英语 ")) 
english= true; 
if(qName. equals(" 学 生 "))!{ 
PersonSum = 0; 


Count++; 


} 
public void characters(char[ | ch, int start, int length)!{ 


String text = new String(ch, start, length); 
if(isComputabled == true) 
numberContent. append( text); 
System. out. print (text); 
} 
public void endElement(String uri, String localName, String qName){ 
System. out. print ("</" + qName + ">" ); 
if(isComputabled){ 
String numberStr = new String(numberContent); 
numberStr = numberStr. trim( ); 
double d= Double. parseDouble( numberStr); 
personSum = personSum + d; 
if (math) 
mathSum = mathSum + d ; 
if (english) 
englishSum = englishSum+ di 
} 
isComputabled = false.; 
math = false; 
english = false; 
if(qName. equals(" 学 生 ")) 
System. out. print(" 该 学 生 的 总 成 绩 : " + personSum) ; 
} 
public void endDocument( ){ 
System. out. println(""); 
System. out. println(" 共 有 "+ count + "名 学 生 "); 
System. out. println(" 数 学 平均 成 绩 : " + mathSum/count ) ; 
System. out. println( "英语 平均 成 绩 : " + englishSum/count ) ; 


5.5 名 称 空间 事件 


我 们 曾 在 第 2 章 详细 讲解 了 名 称 空间 ,建立 名 称 空间 的 目的 是 有 效 地 区 分 名 字 相 同 
的 标记 , 当 两 个 标记 的 名 字 相 同时 ,它们 可 以 通过 隶属 不 同 的 名 称 空间 来 被 相互 区 分 。 名 
称 空间 分 为 有 前 级 名 称 空间 和 无 前 弘 名 称 空 间 , 例 如 : 
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xmlns:tup = "http://www. tup. com" 
声明 的 名 称 空间 的 名 称 是 http://www. tup. com, 前 级 是 tup。 
xmlns = "http://www. cctv. com" 


声明 的 名 称 空间 的 名 称 是 http://www. cctv. com, 无 前 级 。 

名 称 空间 是 在 一 个 标记 的 开始 标签 中 , 当 解 析 硕 在 一 个 标记 的 开始 标签 中 发 现 一 个 
名 称 空 间 声 明 时 ,就 先 报告 一 个 "名称 空 间 开 始 ? 事 件 给 事件 处 理 希 ,然后 再 报告 “标记 开 
始 ? 事 件 。 解 析 天 报告 ”名称 空间 开始 ?事件 后 ,处理 硕 就 会 知道 所 发 生 的 事件 ,然后 调用 


public void startPrefixMapping(String prefix, String uri) 


方法 对 发 现 的 数据 做 出 处 理 ,方法 中 的 参数 prefix 是 解析 融 发 现 的 名 称 空间 的 前 缀 ,uri 
是 名 称 空间 的 名 称 , 如 有 果 名 称 空 间 没 有 前 级 ,prefix 是 不 含 任何 字符 的 串 , 即 prefix 一 ””。 

名 称 空间 涉及 作用 域 的 概念 ,一 个 标记 如 有 果 使 用 了 和 名称 空间 ,那么 该 名 称 空间 的 作用 
域 是 该 标记 及 其 所 有 的 子 标记 ( 见 2.9 节 )。 因 此 ,解析 需 报 告 完 “标记 结束 "事件 后 ,就 会 
报告 一 个 "名称 空 间 结 束 ? 事 件 给 事件 处 理 硕 ,表明 名 称 空 间 的 作用 域 结束 了 ,事件 处 理 需 
就 会 知道 所 发 生 的 事件 ,然后 调用 


public void endPrefixMapping( String prefix) 


对 发 现 的 数据 做 出 处 理 。 例 如 ,对 于 
<hello xmlns:tup = "www. tup. com"> 清 华 大 学 出 版 社 </hello> 


解析 货 报 告 事件 的 顺序 是 :“ 名 称 空间 开始 "事件 “标记 开始 事件、 文本 “事件 ”标记 结 
束 ” 事 件 “ 名 称 空间 结束 ”事件 。 

为 了 能 让 解析 器 报告 “名 称 空间 开始 ”和 “名 称 空间 结束 ”事件 ,SAXParserFactory 需 
如 下 调用 setrNamespaceAware(boolean b) 方 法 : 


factory. setNamespaceAware( true); 

下 面 的 例 6 中 ,example5_6 中 的 两 个 “图书 ”标记 分 别 隶 属 名 称 为 "清华 大 学 出 版 社 ” 
和 “机 械 工 业 出 版 社 ” 的 名 称 空间 ,SAXSix. java 输出 了 名 称 空间 的 名 称 和 前 级 ,但 只 输出 
了 隶属 "清华 大 学 出 版 社 ? 的 图 书 标记 的 子 标记 包含 的 文本 数据 。 例 6 中 SAXSix. java 的 
运行 效果 如 图 5.7 所 示 。 

【 例 6】 


examples 0. Xml 


:清华 名 称 宝 间 的 名 称 :清华 大 学 出 版 社 


<?xml version= "1.0" encoding = "UTF— 8" ?> 绎 :机 工 名 称 空间 的 名 称 :机 械 工 业 出 版 社 


< 图 书 列表 xmlns: 清 华 = "清华 大 学 出 版 社 " 从 :各 Yors 程序 设计 《清华 : 书 名 > 
xmlns: 机 工 = "机械 工 业 出 版 社 "> 傅 华 : 书 名 3JSP 程序 设计 人 清华 : 书 名 > 
< 清华 :图 书 > 人 清华 :图 书 > 
< 清华 : 书 名 > Java 程序 设计 </ 清 华 : 书 名 > 解析 过 程 结束 , 报告 了 2 次 名 称 空间 


< 清华 : 书 名 > JSP 程序 设计 </ 清 华 : 书 名 > oo, 
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< 机 工 :图 书 > 
< 机 工 : 书 名 > Java 程序 设计 </ 机 工 : 书 名 > 
< 机 工 : 书 名 > JSB 程序 设计 </ 机 工 : 书 名 > 
</ 机 工 : 图 书 > 
</ 图 书 列表 > 


SAXSix. java 


import javax. xml.parsers. 关 / 
import org. xml. sax. helpers. *; 
import org. xml. sax. 关 ; 
import JjJava. io. x*; 
public class SAXSix{ 
public static void main(String args[ ] ){ 
try { File file= new File("example5 6.xml"); 
SAXParserFactory factory = SAXParserFactory. newInstance() :; 
factory. setNamespaceAware( true); 
SAXParser saxParser = factory. newSAXParser( ); 
EventHandler handler = new EventHandler( ); 
saxParser. parse(file, handler); 
} 
catch( Exception e){ 
System. out. println(e); 


} 
class EventHandler extends DefaultHandler{ 
int count = 0; 
String uri; 
public void startPrefixMapping( String prefix, String uri){ 
Count++ ; 
System. out. print(" 前 级 :" + prefix+" "); 
System. out. println(" 名 称 空间 的 名 称 :" + uri); 
} 
public void characters(char[ | ch, int start, int Length){ 
String text = new String(ch, start, length); 
if(uri! =null&&uri. equals( "清华 大 学 出 版 社 ")) 
System. out. print(text); 
} 
public void startElement( String uri, String localNanme, 
String qName, Attributes atts){ 
this. uri = uri; 
if(uri.equals( "清华 大 学 出 版 社 ")){ 
System. out. print("<" + qName + ">"); 


} 
public void endElement(String uri, String localName, String qName){ 
if(uri.equals( "清华 大 学 出 版 社 ")) 
System. out. println("</" + qName + ">" ); 
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public void endDocument( ) { 
System. out. println(" 解 析 过 程 结 束 ,报告 了 ”+ count + "次 名 称 空 间 "); 
} 
} 


5.6 角 误 事件 


SAX 解析 费 默 认 地 检查 XML 文件 是 否 是 规范 的 , 知 要 使 SAX 解析 器 检查 XML 文 
件 是 否 是 有 效 的 ,SAXParserFactory 对 象 factory 事先 必须 进行 如 下 的 设置 


factory. setValidating(true); 


SAX 解析 器 在 解析 XML 文件 的 过 程 中 ,如 果 发 现 错误 就 会 报告 一 个 “错误 ”事件 给 
解析 帮 ,报告 的 信息 是 一 个 SAXParseException 对 象 ,事件 处 理 絮 就 会 调用 下 列 某 个 方 
法 来 处 理 错误 信息 : 

。 public vold warning(SAXParseException e) throws SAXException 
。 public vold error(SAXParseException e) throws SAXException 
。 public void fatalError(SAXParseException e) throws SAXException 

上 述 三 个 方法 中 的 参数 e 就 是 解析 器 报告 的 SAXParseException 对 象 , 这 样 ,事件 处 
理 器 在 处 理 错误 信息 时 ,就 可 以 让 对 象 e 调 用 相应 的 方法 获取 错误 的 细节 ,程序 就 可 以 输 
出 错误 的 细节 或 将 错误 保存 到 文件 中 。 

对 象 。 调用 

public String getMessage!( ) 
方法 返回 错误 信息 ,调用 

public void printStackTrace!( ) 
方法 输出 错误 信息 ,调用 

int getColumnNumber( ) 
方法 返回 错误 结尾 所 在 的 列 号 ,调用 

int getLineNumber() 
方法 返回 错误 结尾 所 在 的 行 号 ,调用 

public String getPublicId( ) 

和 

public String getSystemId( ) 
方法 可 以 获取 有 关 的 PUBLIC 标识 和 SYSTEM 标识 。 

上 述 三 个 方法 warning() 、error() 和 fatalError() 都 可 以 抛 出 SAXException 异常 ,也 就 
是 说 事件 处 理 需 在 调用 这 些 方法 时 ,可 以 选择 是 否 抛 出 一 个 SAXException 对 象 给 解析 上 需 。 
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解析 器 在 调用 parse() 方 法 时 ,必须 使 用 try…catch… 语 人 句 来 捕获 SAXException 异 
常 , 当 SAXException 异常 发 生 时 ,parse() 方 法 立刻 结束 执行 ,停止 解析 过 程 。 例 如 ,事件 
处 理 需 在 调用 warning() 方 法 时 ,可 以 将 有 关 的 信息 保存 到 文件 中 ,但 是 ,在 保存 时 有 可 
能 发 生 IOException 异常 。 这 时 ,我 们 不 希望 解析 一 继续 解析 XML 文件 ,那么 ,在 处 理 
IOException 异常 时 ,就 可 以 抛 出 一 个 SAXException 对 象 给 解析 各 ,解析 副将 集 止 parse() 
方法 的 执行 。 

事件 处 理 需 在 调用 这 些 方法 时 ,如 果 不 抛 出 一 个 SAXException 对 象 给 解析 央 ,解析 
般 就 会 继续 解析 XML 文件 。 如 果 解 析 需 发 现 已 无 法 继续 解析 文件 ,将 停止 parse() 方 法 
的 执行 ,并 目 动 抛 出 一 个 SAXException 异常 给 使 用 SAX 解析 需 的 应 用 程序 。 

当 解 析 天 报告 一 个 “错误 ?事件 后 ,事件 处 理 需 会 根据 错误 的 类 型 调用 warning()、 
error() 和 fatalError() 三 个 方法 中 的 某 一 个 ,现在 分 别 阐述 如 下 。 

1. warning( 警 告 ) 

警告 不 属于 规范 性 错误 。 当 解析 器 认为 有 必要 发 出 一 个 警告 信息 时 ,就 报告 一 个 “和 警 
告 " 事 件 给 解析 带 ,报告 的 信息 是 一 个 SAXParseException 异常 对 象 ,事件 处 理 副 就 会 调 
用 warning() 方 法 。 处 理 胡 调用 warning() 方 法 时 ,一 般 不 必 抛 出 SAXException 异 和 常 ， 
因为 这 些 餐 告 不 会 影 啊 解析 各 继 续 解 析 文 件 。 

2. error( 一 般 错 误 ) 

一 般 错 误 属 于 非 致 命 错误 。 解 析 器 认为 一 般 错 误 不 会 影响 它 继续 解析 文件 ,例如 , 当 
设置 解析 策 检 查 XML 文件 的 有 效 性 时 ,解析 第 就 会 检查 XML 文件 是 否 天 守卫 DID 文 
件 所 规定 的 约束 ,如 果 发 现 XML 文件 未 遵守 某 个 约束 就 会 报告 一 个 ”一般 错误 "事件 给 
解析 器 ,报告 的 信息 是 一 个 SAXParseException 异常 对 象 。 处 理 需 调用 error() 方 法 时 ， 
一 般 不 必 抛 出 SAXException 异常 ,因为 这 些 错误 不 会 影响 解析 副 继 续 解析 文件 。 

3. fatalError( 致 命 错 误 ) 

致命 错误 是 最 严重 的 错误 。 解 析 器 认为 这 样 的 错误 会 影响 它 继续 解析 文件 ,因为 这 
些 错误 导致 继续 解析 XML 文件 完全 是 浪费 时 间 ,或 解析 无 法 进行 。XML 文件 不 满足 规范 
性 或 关联 的 DID 文件 有 错误 等 都 会 导致 致命 错 误 。 所 以 ,处 理 需 调用 fatalError( ) 方 法 时 ， 
应 当 抛 出 SAXException 异常 ,停止 解析 过 程 。 如 果 不 抛 出 SAXException 异 条 ,让 解析 上 需 
继续 解析 文件 ,但 解析 器 发 现 上 自己 已 经 无 法 继续 解析 文件 ,那么 它 就 会 强制 停止 parse() 
方法 的 执行 。 

下 面 的 例 7 中 ,XML 文件 不 是 有 效 的 , 它 没 有 满足 DID 的 约束 。 例 7 中 的 
SAXSeven. java 输出 了 XML 文件 不 是 有 效 的 有 关 信 息 ,效果 如 图 5.8 所 示 。 

【 例 7】 


sevenDTD. dtd 


<! ELEMENT 商品 信息 (商品 * ) > 
<!ELEMENT 商品 (名 称 , 生 产 日 期 ,价格 ) > 
<! ELEMENT 名 称 ( 共 PCDATA) > 

<! ELEMENT 生产 日 期 (#PCDATA) > 

<! ELEMENT 价格 (上 PCDRTR) > 
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图 5.8 处理“ 错误 ”事件 


exampleS_7. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<! DOCTYPE 商品 信息 SYSTEM "sevenDTD. dtd"> 
< 商品 信息 > 
< 商品 > 
< 名 称 > 电视 机 </ 名 称 > 
< 生产 日 期 > 2010-12- 20 </ 生 产 日 期 > 
< 价格 > 5676 元 / 台 </ 价 格 > 


</ 商 品 > 
< 商品 > <! -- 下 列 三 个 标记 的 顺序 不 符合 DTD 约束 ( 非 致 命 错误 ) -一 > 
< 名 称 > 洗衣 机 </ 名 称 > 


< 价格 > 6686 元 /人 台 </ 价 格 > 
< 生产 日 期 > 2009-10- 19 </ 生 产 日 期 > 
</ 商 品 > 
</ 商 品 信息 > 


SAXSeven. java 


import javax. xml.parsers. *; 
import org. xml. sax. helpers. *; 
import org. xml. sax. x*; 
import java. 10. x*; 
public class SAXSeven{ 
public static void main(String args[ ]){ 
try { File file= new File("example5 7.xml"); 
SAXParserFactory factory = SAXParserFactory. newInstance( ); 
factory. setNamespaceAware( true); 
factory. setValidating(true); 
SAXParser saxParser = factory. newSAXParser( ) ; 
EventHandler handler = new EventHandler( ) ; 
saxParser. parse(file, handler); 
} 
catch( Exception e){ 
System. out. println(e); 
} 
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} 


class EventHandler extends DefaultHandler{ 


public void warning( SAXParseException e)throws SAXException{ 
String warningMessage = e. getMessage!( ); 
int row = e. getLineNumber( ); 
int colums = e. getColumnNumber ( ) ; 


System. out. println( "警告 : " + warningMessage + "位 置 : "+ row+","+colums); 


System. out. println("publicId:" + e.getPublicId( )); 
System. out. println("systemlId:" + e.getSystemId( ) ) ; 

} 

public void error(SAXParseException e) throws SAXException{ 
String errorMessage = e.getMessage( ); 
int row = e. getLineNumber( ); 
int colums = e. getColumnNumber ( ) ; 


System. out. println( "一 般 错 误 : "+ errorMessage + "位置: "+ row+"," +colums); 


System. out. println("publicId:" + e.getPublicId( )); 
System. out. println("systemlId:" + e.getSystemId( ) ) ; 
} 
public void fatalError( SAXParseException e) throws SAXException{ 
String fatalErrorMessage = e. getMessage( ); 
int row = e. getLineNumber( ); 
int colums = e. getColumnNumber( ); 


System. out. println( "致命 错误 : "+ fatalErrorMessage + "位 置 : 


System. out. println("publicId:" + e.getPublicId()); 
System. out. println("systemlId:" + e.getSystemId( ) ) ; 
throw new SAXException( "致命 错误 ,停止 解析 "); 


} 
public void startDocument( ){ 


System. out. println(" 开 始 解 析 XML 文件 "); 

} 

public void endDocument( ){ 
System. out. println(" 解 析 过 程 结 束 "); 

} 

public void startElement( String uri, String localNanme, 

String qName, Attributes atts ){ 

System. out. print("<" + qName + ">"); 

} 


public void endElement(String uri, String localName, String qName){ 


System. out. print("</" + qName + ">" ); 
} 
public void characters(char[ | ch, int start, int Length){ 
String text = new String(ch, start, length); 
System. out. print(text); 
} 
public void ignorableWhitespace(char[ ] ch, int start, int length){ 
String text = new String(ch, start, length); 
System. out. Print(text) ; 


"+rowt+"," + colums); 
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5.7 处 理 空 白 


标记 的 标签 之 间 的 缩 进 区 域 都 是 为 了 使 得 XML 文件 看 起 来 更 美观 而 形成 的 ,但 解 
析 佑 并 不 知道 这 一 点 ,所 以 解析 右 仍 然 认 为 它们 是 有 用 的 文本 数据 (由 空 日 类 字符 组 成 )。 

人 们 习惯 上 称 标记 的 标签 之 间 的 缩 进 区 是 可 忽略 空白 ,这 实际 上 不 是 很 准确 ,因为 
XML 文件 的 标记 可 以 包含 有 文本 和 子 标记 (或 两 者 的 混合 内 容 ) ,在 这 种 情况 下 ,标记 的 
标签 之 间 的 区 域 中 就 可 能 包含 可 显示 的 字符 。 

如 有 果 我 们 不 允许 标记 含有 混合 内 容 , 即 标记 只 包含 有 子 标记 或 只 包含 有 文本 ,在 这 种 
情形 下 , 称 标记 的 标签 之 间 的 缩 进 区 域 是 可 忽略 空 日 就 比较 恰当 ,这 些 空 日 区 使 得 XML 
文件 看 起 来 更 加 美观 ,是 没有 实际 使 用 价值 的 空白 字符 。 

SAX 解析 需 并 不 知道 标记 之 间 的 缩 进 区 域 是 为 了 使 得 XML 文件 看 起 来 更 美观 ,对 
于 下 面 的 XML 文件: 


<?xml version "1.0" encoding= "UTF— 8"?> 
<root> 
问候 
<a> hello</a> 
<b> 你 好 </b> 
</root > 
解析 需 一 共 报 告 了 5 次 ”文本 ”事件 给 事件 处 理 器 。5 次 “文本 ”事件 报告 的 文本 分 别 是 : 
“<root> ”与 “<a>” 之 间 的 空白 字符 “<a> ”与 “</a> ”之 间 的 文本 数据 “</a> ”与 
“<b> "之 间 的 空白 字符 “<b> ”与 “<</b>" 之 间 的 文本 数据 “</b>” 与 “</root>” 
之 间 的 空白 字符 。 
显然 ,我 们 不 希望 事件 处 理 器 去 调用 characters() 方 法 来 处 理 标 记 的 标签 之 间 的 缩 
进 区 域 形 成 的 这 些 空 日 字符 ,因为 这 会 延 角 事件 处 理 硕 获取 其 他 数据 的 时 间 。 如 果 不 想 
让 事件 处 理 需 去 调用 characters() 方 法 来 处 理 这 些 空 月 字符 ,那么 XML 文件 必须 是 有 效 
的 ,而 且 所 关联 的 DTD 文件 必须 规定 XML 文件 的 标记 不 能 有 混合 内 容 。 一 旦 这 样 做 
了 , 当 解 析 需 报告 的 “文本 ?事件 属于 标记 的 标签 之 间 的 缩 进 区 域 形 成 的 空白 类 字符 时 , 事 
件 处 理 硕 就 会 去 调用 


ignorableWhitespace(char[ ] ch, int start, int length) 


方法 ,而 不 去 调用 characters( ) 方 法 。 

如 果 我 们 不 准备 处 理 这 些 空 白 , 只 要 在 编写 DefaultHandler 类 的 子 类 时 ,该 子 类 直接 从 
DefaultHandler 类 继承 该 方法 即 可 (DefaultHandler 类 的 ignorableWhitespace() 方 法 不 对 空 
白字 符 做 任何 处 理 )。 如 果 准 备 处 理 这 些 空白 ,只 要 在 子 类 中 重 写 ignorableWhitespace() 方 
法 即 可 。 

在 下 面 的 例 8 中 SAXEight. java 的 解析 器 解析 前 面 例 7 中 的 example5_7. xml ,在 解 
析 过 程 中 使 用 characters() 方 法 处 理 标 记 包 含 的 文本 内 容 , 使 用 1ignorableWhitespace( ) 
方法 处 理 标 记 的 标签 之 间 的 缩 进 区 域 形成 的 空白 字符 。 例 8 中 SAXEight. java 的 运行 效 


102 | X 肌 基础 教程 (第 2 版 ) 


有 果 如 图 5.9 所 示 。 


图 5.9 处 理 空白 


【 例 8】 
SAXEight. java 


import javax. xml.parsers. x*; 
import org. xml. sax. helpers. *; 
import org. xml. sax. 关 ; 
import Java. io. *; 
public class SAXEight{ 
public static void main(String args[ ] ){ 
try { File file=new File("example5 7.xml"); 
SAXParserFactory factory = SAXParserFactory. newInstance() ; 
factory. setNamespaceAware( true); 
SAXParser saxParser = factory. newSAXParser( ) ; 
EventHandler handler = new EventHandler( ); 
saxParser. parse(file, handler); 
} 
catch(Exception e){ 
System. out. println(e); 


} 
class EventHandler extends DefaultHandler{ 

int count = 0; 

public void characters(char[ | ch, int start, int length){ 
String text = new String(ch, start, length); 
System. out. print (text); 

} 

public void ignorableWhitespace(char|[ | ch, int start, int length){ 
Count++; 
System. out. print(" 第 "+ count + "个 空白 区 "); 

} 

public void startElement(String uri, String localName, 

String qName, Attributes atts){ 

System. out. print("<" + localName + ">"); 

} 

public void endElement (String uri, String localName, String qName ){ 
System. out. print("</" + localName + ">" ); 

} 

public void endDocument( ){ 
System. out. println(" 解 析 过 程 结束 ,报告 了 "+count+ "次 空白 "); 
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站 题 5 


1. 对 于 下 列 XML 文件 ,SAX 解析 器 报告 事件 的 顺序 是 怎样 的 ? 


<?xml version= "1.0" encoding= "UTF—8" ?> 
< 商品 信息 > 
< 商品 > 
< 名 称 > 电 视 机 </ 名 称 > 
< 价钱 > 3236 元 </ 价 钱 > 
</ 商 品 > 
</ 商 品 信息 > 


2. 如 采 解 析 天 设置 为 忽略 名 称 空间 ， 


startElement(String uri, String localName, String qName, ,Attributes atts ) 


方法 中 各 个 参数 的 取 值 是 怎样 的 ? 
3. 在 什么 情形 下 ,解析 副 的 事件 处 理 帮 会 调用 


ignorableWhitespace(char|[ | ch, int start, int length) 


方法 ? 

4. 有 如 下 的 XML 文件 ,请 编写 Java 程序 (参考 例 5) ,使 用 SAX 解析 器 获取 标记 中 
的 文本 数据 ,并 根据 这 些 数据 计算 出 “货品 列表 ”中 全 部 货品 的 总 重量 。 

Xiti4. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 货品 列表 > 
< 货品 > 
< 名 称 > 电视 </ 名 称 > 
< 重量 > 23.8 </ 重 量 > 
</ 货 品 > 
< 货品 > 
< 姓名 > 洗衣 机 </ 名称 > 
< 重量 > 67.2 </ 重 量 > 
</ 货 品 > 
</ 货 品 列 表 > 


XPath 语言 


主要 内 容 

。 XPath 简介 

Node 节点 

XPath 路 径 表 达 式 的 结构 
。 谓词 

。 节点 集 上 使 用 谓词 
节点 集 的 并 运算 

。 Java XPath API 

。 节点 集 与 函数 

。 图 书 查询 


XML 的 核心 是 组 织 数 据 结 构 , 有 些 文献 甚至 将 XML 称 为 XML 数据 库 。 自 从 XML 
诞生 以 来 ,XML 解析 顺 的 相关 应 用 有 着 极其 重要 的 地 位 ,为 此 W3C 为 解析 XML 文件 中 
的 数据 指定 了 DOM 规范 。 

在 第 4 章 讲述 了 如 何 使 用 基于 DOM 规范 的 DOM 解析 顺 , 其 核心 是 在 内 存 中 创建 
和 XML 数据 结构 相对 应 的 树 形 结构 数据 ,不仅 可 以 方便 应 用 程序 分 析 XML 文件 中 的 数 
据 , 而 且 应 用 程序 也 可 以 使 用 内 存 中 的 树 形 结构 数据 修改 XML 文件 中 的 数据 或 创建 新 
的 XML 文件 。DOM 解析 需 的 缺点 是 占用 较 多 的 内 存 , 如 果 仅 仅 需 要 XML 文件 中 的 少 
量 的 特殊 数据 ,使 用 DOM 解析 器 就 会 事倍功半 。 

在 第 5 草 讲述 了 基于 事件 处 理 机 制 的 SAX 解析 器 ,相对 DOM 解析 占 ,SAX 解析 妖 
占用 的 内 存 少 ,对 于 许多 应 用 程序 ,使 用 SAX 解析 需 来 获取 XML 数据 具有 较 高 的 效率 。 
但 是 SAX 解析 人 船 也 有 不 足 之 处 ,如 果 仅 仅 需要 XML 文件 中 的 少量 的 特殊 数据 ,使 用 
SAX 解析 器 可 能 需要 事先 处 理 一 些 不 需要 处 理 的 事件 后 才 可 以 获得 应 用 程序 想 要 的 
数据 。 

W3C 在 1999 年 推出 XML Path Language (XPath) Version 1.0 规范 ,简称 XPath 
1.0 语言 规范 ,并 在 2007 年 对 XPath 1.0 进行 了 补充 ,正式 公布 了 XML Path Language 
(XPath) Version 2. 0 ,简称 XPath 2. 0 语言 规范 。XPath 1. 0 是 XPath 的 一 个 子 集 ， 
XPath 2.0 中 有 大 约 80% 和 XPath 1.0 相同 。 
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使 用 XPath 可 以 很 容易 地 编写 查询 XML 中 数据 的 XPath 路 径 表 达 式 ,与 DOM 和 
SAX 解析 需 的 侧重 点 不 同 ,XPath 语言 为 应 用 程序 从 XML 文件 中 获得 所 需要 的 特殊 数 
据 提 供 了 更 加 方便 .快捷 的 语法 ,XPath 的 作用 非常 类 似 于 SQL 语言 在 关系 数据 库 中 的 
作用 。 

本 章 将 讲述 XPath 语言 ,读者 也 可 以 登录 http://www. w3. org/TR/xpathy. html 
和 http://www. w3. org/TR/xpath20 了 解 完整 的 XML Path Language (XPath ) 
Version 1.0 和 XML Path Language (XPath) Version 2.0 规范 。 

由 于 XML Path Language (XPath) Version 1. 0 更 加 基础 ,而 且 目 前 JDK1.6 中 的 
Java XPath API 是 按照 XPath 1.0 实现 的 有 关 规 范 , 因 此 本 书 侧 重 讲解 XML Path 
Language (XPath) Version 1. 0。 详 细 讲 解 XML Path Language (XPath) Version 2. 0 
已 经 超出 本 书 的 范围 ,读者 通过 学 习 本 书 有 助 于 学 习 W3C 发 布 的 XPath 2. 0 中 对 XPath 
1.0 所 做 的 补充 部 分 。 


6.1 XPath 人 和 低 介 


XPath 语言 的 核心 是 给 出 用 于 从 XML 文件 中 查找 标记 的 语法 规则 , 即 编 写 XPath 
路 径 表 达 式 ,以 便 使 应 用 程序 更 加 方便 .快捷 地 从 XML 文件 中 检索 到 所 需要 的 数据 。 本 
节 简 单 介绍 XPath 路 径 表 达 式 以 及 如 何 使 用 XPath 路 径 表 达 式 和 Java 提供 的 API 编写 
检索 XML 中 数据 的 应 用 程序 ,有 关 细 节 将 在 后 续 的 小 节 中 详细 地 讲述 。 


6.1.1 初 识 XPath 路 径 表 达 式 


一 个 XPath 路 径 表 达 式 ,简称 XPath 表达 式 ,由 奉 干 个 "定位 步 ? 所 构成 (有 关 细 节 见 
6.3 节 )。XPath 路 径 表 达 式 在 表述 形式 上 类 似 UNIX 操作 系统 的 文件 系统 路 径 的 表述 
形式 。 

以 下 结合 一 个 简单 的 XML 文件 来 了 解 XPath 路 径 表 达 式 ,语法 的 细节 将 在 后 续 内 
容 中 讲解 ( 见 6. 3 节 )。 

【 例 1]】 


example0 1. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 学 生 列 表 > 
< 学 牛 > 
< 姓名 > 张 三 </ 姓 名 > 
< 性 别 > 男 </ 性 别 > 
< 成 绩 > 80 </ 成 绩 > 
</ 学 生 > 
< 学 生 > 
< 姓名 > 李 四 </ 姓 名 > 
< 性 别 > 女 </ 性 别 > 
< 成 绩 > 50 </ 成 绩 > 
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</ 学 生 > 
< 学 生 > 
< 姓名 > 孙 伍 </ 姓 名 > 
< 性 别 > 男 </ 性 别 > 
< 成 绩 > 80 </ 成 绩 > 
</ 学 生 > 
</ 学 生 列 表 > 


下 面 是 一 个 针对 例 1 中 的 XML 文件 example6_1. xml 的 XPath 路 径 表 达 式 : 

/学 生 列 表 / 学 生 / 姓 名 

该 XPath 路 径 表 达 式 返回 example6_1. xml 中 与 该 XPath 路 径 表 达 式 匹配 的 所 有 标 
记 , 即 返回 example6_1. xml 文件 中 的 所 有 名 字 为 “姓名 ”的 标记 ,下 面 的 XPath 路 径 表 
达 式 : 

/学 生 列 表 / 学 生 [2]/ 姓 名 
返回 example6_1. xml 文件 中 第 2 个 名 称 为 "学生" 标记 的 所 有 “姓名 ” 子 标记 ,该 XPath 
路 径 表 达 式 的 第 2 个 定位 步 中 使 用 了 谓词 (使 用 方 括号 给 出 的 标记 匹配 条 件 ) 。 


XPath 路 径 表 达 式 的 核心 是 给 出 一 个 匹配 XML 文件 中 标记 的 模式 ,也 可 以 说 
XPath 路 径 表 达 式 的 核心 是 表示 满足 一 定 条 件 的 标记 所 组 成 的 集合 。 


6.1.2 使 用 XPath API 


本 节 简 单 地 介绍 Java 中 处 理 XPath 路 径 表 达 式 的 API, 细 节 将 在 后 续 内 容 中 讲述 
( 见 6.4 节 )。 使 用 Java XPath API 处 理 XPath 路 径 表 达 式 的 步骤 如 下 。 

(1) 使 用 javax. xml. xpath 包 中 的 XPathFactory 类 调用 其 类 方法 newJInstance() 实 
例 化 一 个 XPathFactory 对 象 : 


XPathFactory xPathFactory = XPathFactory. newInstance( ) ; 


(2) 将 步骤 (1) 中 得 到 的 XPathFactory 对 象 调 用 newXPath() 方 法 返回 一 个 XPath 
对 象 ; 


XPath xPath = xPathFactory. newXPath( ); 


(3) 使 用 org. xml. sax 包 中 的 InputSource 类 将 XML 文件 封装 到 一 个 InputSource 
对 和 象 中 : 


InputSource source = new InputSource(" student. xml" ); 


(4) 将 步骤 (2) 中 获得 的 XPath 对 象 调 用 evaluate() 方 法 来 计算 XPath 路 径 表 达 式 
(evaluate() 方 法 的 细节 见 6. 3 节 ): 


NodeList nodelist = 
(NodeList)xPath. evaluate( "学 后 列表 /学 生 [2]/ 姓 名 ",source, XPathConstants. NODESET ) ; 
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在 下 面 的 例 2 中 ,使 用 Java XPath API 处 理 XPath 路 径 表 达 式 ,输出 6. 1.1 小节 的 
example6_1. xml 文件 中 成 绩 大 于 60 的 全 部 学 生 的 姓名 。 例 2 中 XPathOne. java 的 运行 
效果 如 图 6. 1 所 示 。 


【 例 2】 

XPathOne. java E 

名 : 张 三 

import javax. xml.xpath. x ; 名 : 孙 伍 

import org. xml. sax. * ; 

import org. w3c. dom. x ; 图 6.1 使 用 Java XPath API 


public class XPathOne{ 
public static void main(String args[ ] ) { 
try{ XPathFactory xPathFactory = XPathFactory. newInstance( ); 
XPath xPath = xPathFactory. newXPath( ) ; 
InputSource source = new InputSource( "example6 1.xml" ); 
String path = "/ 学 生 列 表 / 学 生 [ 成 绩 > 60]/ 姓 名 "; 
NodeList nodelist = 
(NodeList)xPath. evaluate( path, source, XPathConstants. NODESET); 
int size = nodelist. getLength!( ) ; 
for(int k= 0;k <size;k+ + ){ 
Node node = nodelist. item(k); 
String name = node. getNodeName( ) ; 
String content = node. getTextContent( ); 
System. out. print(name); 
System. out. println(":" + content); 
} 
} 
catch( Exception exp){ 
System. out. println( exp); 
} 
} 


6.2 Node 恨 虚 


和 DOM 规范 类 似 ,XPath 语言 把 XML 文件 中 的 标记 、 标 记 包 含 的 文本 等 组 成 的 数 
据 结构 看 做 是 一 个 树 形 结构 ,即将 XML 文件 看 做 是 由 Node 类 型 节点 构成 的 树 。Node 
节点 又 可 细 分 为 Document、Element、Text、Attribute 等 节点 。 本 节 之 后 , 当 提 到 节点 时 ， 
如 采 没 有 特别 指明 其 类 型 ,就 是 指 Node 节点 。 


6.2.1 节点 之 间 的 关系 
树 形 结构 中 的 各 个 节点 按 其 在 树 中 的 位 置 形 成 各 种 关系 ,例如 一 个 节点 是 另 一 个 节 


点 的 子 节 点 等 。 和 通常 树 形 结构 数据 中 使 用 的 术语 一 样 ,XPath 语言 也 经 党 使 用 表明 节 
点 之 间 关 系 的 术语 : 子 节点 、 父 节点 、 子 孙 节 点 、 祖 先 节 点 、 兄 节点 、 第 节 抬 、 兄 轴 节 点 等 。 
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一 个 节点 的 子 节 点 也 称 为 1 级 子 市 点 , 厄 点 的 1 级 子 市 点 的 子 节 点 称 为 该 方 点 的 
2 级 子 节 太 …… 以 此 类 推 ,节点 的 n 级 子 节 点 的 子 节 点 称 为 该 节点 的 n 十 1 级 子 市 点 ,将 
节点 的 任何 级 别 的 一 个 子 节 点 也 称 为 该 节点 一 个 子孙 节点 (descendant 节点 )。 

一 个 节点 的 父 节 点 也 称 为 1 级 父 厄 点 , 厄 点 的 1 级 父 厄 点 的 父 节 点 称 为 该 扩 点 的 
2 级 父 节点 …… 以 此 类 推 ,节点 的 n 级 父 节点 的 父 节 点 称 为 该 节点 的 n 十 1 级 父 厄 点 ,将 
节点 的 任何 级 别 的 一 个 父 节 点 称 为 该 节点 一 个 祖先 节点 (ancestor 节点 )。 

一 个 节点 的 兄 节 点 是 指 和 该 季 点 具有 同样 的 级 别 ,并 且 是 该 节点 之 前 的 菜 个 节点 ; 
一 个 节点 的 弟 节点 是 指 和 该 节点 具有 同样 的 级 别 ,并 且 是 该 节点 之 后 的 某 个 节点 ;一 个 
节点 的 兄 第 节点 是 指 和 该 节点 具有 同样 的 级 别 的 菏 个 节点 。 


6.2.2 节点 的 类 型 


和 DOM 规范 一 样 ,XPath 语言 将 XML 文件 看 做 是 由 Node 类 型 节点 构成 的 树 ,而 
上 且 Node 类 型 节点 还 可 细 分 为 Document 、 Element 、Text、Attribute 等 节点 。 例 如 ,XPath 
将 下 面 的 XML 文件 employee. xml 看 做 是 一 个 如 图 6.2 所 示 的 树 形 结构 。 


<?xml version="1.0" ?> 
<?xml-stylesheet ene Document 节 点 
href="show.css" 
type="text/css" ?> 
< 雇员 列表 > 
< 姓名 > 张 三 </ 姓 名 > 
< 姓名 > 李 四 
< 民族 > 傣族 </ 民 族 > 
</ 姓 名 > 
< 雇员 列表 > 


Processinglnstruction 


图 6.2 employee. xml 文件 对 应 的 Document 节点 


employee. xml 


<?xml] version= "1.0" ?> 
<?xml — stylesheet href = "show. css" type= "text/css" ?> 
< 雇员 列表 > 

< 姓名 > 张 三 </ 姓 名 > 

< 姓名 > 李 四 

< 民族 > 傣族 </ 民族 > 

</ 姓 名 > 

</ 雇 员 列 表 > 


1. Document( 文 档 ) 节 点 
XPath 语言 将 整个 XML 文件 看 做 是 一 个 树 形 结构 的 数据 ,并 把 XML 文件 作为 该 树 
的 根 节 点 ,而 且 这 个 根 节 点 的 类 型 是 Document 类 型 的 布点 (上 述 图 6.2 中 employee. xml 
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对 应 痢 的 Document 节点 )。 将 XML 文件 中 的 处 理 指令 、 根 标记 、 根 标记 的 子孙 标记 以 及 
标记 包含 的 文本 看 做 是 Document 根 节 点 的 子孙 节点 。 因 为 XML 文件 只 有 一 个 根 标记 ， 
因此 Document 节点 有 且 仅 有 一 个 Element 类 型 的 节点 , 即 这 个 Element 节点 对 应 着 
XML 文件 的 根 标记 ,XML 文件 使 用 了 几 个 操作 指令 ,那么 Document 节点 束 会 有 对 应 的 
几 个 ProcessingJInstruction 子 节 点 (注意 ,XML 声明 不 是 操作 指令 ) 。 

2. Element( 元 素 ) 节 点 

XPath 语言 将 XML 文件 中 的 每 个 标记 看 做 是 一 个 Element 节点 。 例 如 ,对 于 上 述 
employee. xml,XPath 语言 将 XML 文件 中 名 称 为 “雇员 列表 ”的 标记 看 做 是 一 个 名 字 为 
“雇员 列表 的 Element 节点 (上 述 图 6. 2 中 “雇员 列表 ”的 标记 对 应 看 Document 节点 的 
Element 子 节点 ) ,而 且 该 Element 节点 有 两 个 名 字 都 是 “姓名 ”的 Element 子 节 点 ,分 别 
对 应 者 employee. xml 文件 中 两 个 名 字 为 "姓名 ?的 标记 。 

规范 的 XML 文件 中 的 标记 可 以 有 子 标记 、 文 本 以 及 所 关联 的 属性 ,因此 Element 市 
点 可 以 有 Element 子 节 点 、Text 子 市 点 。 需 要 注意 的 是 ,在 XML 文件 中 属性 并 不 是 标 
记 的 子 标记 ,因此 ,Attribute 节点 也 不 是 Element 节点 的 子 节点 。 

3. Text( 文 本 ) 节 点 

XPath 语言 将 XML 文件 的 标记 中 包含 的 文本 看 做 是 一 个 Text 节点 ,而 且 该 Text 
节点 包含 的 文本 内 容 就 是 它 所 对 应 的 文本 。Text 节点 不 能 再 有 子 节 点 (属于 叶 节 点 )。 
例如 ,对 于 上 述 employee. xml, XPath 语言 将 “姓名 ”标记 中 的 文本 “ 张 三 ” 看 做 是 一 个 
Text 节点 。 

4. Attribute( 属 性 ) 节 点 

XPath 语言 将 XML 文件 中 标记 含有 的 属性 看 做 是 一 个 Attribute 节点 。 由 于 XML 
文件 中 的 标记 和 属性 是 关联 关系 ,因此 Attribute 节点 不 是 Element 节点 的 子 节点 。 但 是 
需要 注意 的 是 ,Atrribute 节点 将 与 其 关联 的 Element 节点 看 做 是 目 己 的 父 节 点 ,也 就 是 
说 一 个 Element 节点 是 它 所 关联 的 Attribute 节点 的 父 节点 ,但 该 Attribute 节点 却 不 是 
它 的 Node 子 市 点 。 

5. ProcessingInstruction( 操 作 指 令 ) 节 点 

XPath 语言 将 XML 文件 中 的 操作 指令 看 做 是 一 个 ProcessingInstruction 节点 。 
ProcessingInstruction 节点 名 字 就 是 操作 指令 的 名 字 , 其 包含 的 文本 内 容 就 是 操作 内 容 
的 文本 描述 。 因 为 XML 文件 的 操作 指令 是 写 在 XML 文件 的 根 标 记 的 前 面 ,所 以 
ProcessingInstruction 节点 是 Document 节点 的 子 节 点 ,不 是 Element 节点 的 子 节点 (如 
图 6. 2 所 示 )。 

6. Namespace 节点 

XPath 语言 将 XML 文件 中 ,在 标记 的 开始 标签 里 声明 的 名 称 空间 看 做 是 一 个 
Namespace 节点 ,该 节点 的 名 字 就 是 名 称 空间 的 前 缀 ,节点 包含 的 文本 内 容 就 是 名 称 空间 
的 名 字 。 

因为 XML 文件 不 把 名 称 空间 看 做 是 标记 的 子 标 记 , 因 此 Namespace 节点 不 是 
Element 节点 的 子 节 点 。 但 需要 注意 的 是 ,Namespace 节点 将 Element 节点 看 做 是 自己 
的 父 节点 ,也 就 是 说 一 个 Element 节点 是 Namespace 节点 的 父 节点 ,但 该 Namespace 节 
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点 却 不 是 它 的 Node 子 节点 。 

7. Comment( 注 释 ) 节 点 

XPath 语言 将 XML 文件 中 的 注释 看 做 是 一 个 Comment 节点 ,注释 节点 包含 的 文本 
内 容 就 是 注释 中 的 内 容 。Comment 节点 可 以 是 Document 或 Element 的 子 节 点 。 


6.2.3 节点 的 名 字 与 值 


Java APath API 使 用 对 应 的 接口 或 类 和 XPath 规范 中 的 节点 类 型 相对 应 ( 见 第 4 章 
的 DOM 规范 )。 厄 点 常用 以 下 3 个 方法 获取 和 它 有 关 的 信息 。 

。 String getNodeName() 获 取 节 点 的 名 字 。 

。 String getNodeValue() 获 取 节 点 的 值 。 

。 String getTextContent() 获 取 和 节点 有 关 的 文本 内 容 。 

上 述 3 个 方法 返回 的 字符 串 依赖 于 调用 方法 的 当前 节点 的 类 型 ,如 表 6. 1 所 示 。 


表 6.1 节点 的 名 字 、 值 及 包含 的 文本 内 容 


节点 类 型 getNodeName() getNodeValue() getTextContent() 
时 和 XML 文件 中 全 部 标记 包 
Document # document 
含 的 文本 内 容 
节点 以 及 它 节 局 
Element 标记 的 名 字 已 孙 节 点 
也 含 的 文本 内 容 
节点 在 XML 中 对 应 的 | 节点 在 XML 中 对 应 的 
Text "# text" 
文本 文本 


Attribute 属性 的 名 字 属性 的 值 属性 的 值 


操作 指令 中 的 操作 


ProcessingJnstruction 操作 指令 的 名 字 内 台 操作 指令 中 的 操作 内 容 
容 


Namespace 名 称 空 间 的 前 组 名 称 空 间 名 称 空间 
Comment 注释 的 内 容 注释 的 内 容 


需要 注意 的 是 ,一 个 Element 节点 调用 getTextContent() 返 回 当 前 节点 以 及 它 的 子 
孙 节 点 包含 的 文本 内 容 。 


6.3 XPath 路 径 表 达 式 的 结构 


一 个 XPath 路 径 表 达 式 由 硅 十 个 “定位 步 ” 构 成 ,一 个 XPath 路 径 表 达 式 将 返回 一 个 
节点 集 , 即 XPath 路 径 表 达 式 的 核心 是 表示 满足 一 定 条 件 的 标记 所 组 成 的 集合 。 


6.3.1 绝对 路 径 与 相对 路 径 


为 了 本 节 以 及 6.3.2 小节 和 6.3.3 小节 讲 解 的 方便 ,统一 使 用 下 面 例 3 中 的 XML 
文件 example6 3. xml 前 述 有 关 概 念 。 
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【 例 3】 


example6_3. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< studentList > 
< student xmlns:pl = "Liaoning" sex=" 男 "> 
<number > 2010111 
< inputTime> 1992 - 01 - 01 </inputTime > 
</number > 
<name> 张 二 </name> 
<birthDay > 1992 - 01 - 01 </birthDay > 
< score> 611 </ score > 
</ student > 
< Student sex=" 女 "> 
<number > 2010222 
< inputTime > 1992 — 01 - 01 </inputTime > 
</number > 
<name> 李 梁 花 </name> 
<birthDay > 1992 - 02 - 02 </birthDay > 
< Score> 522 </ score > 
</ student > 
< Student sex= " 田 "> 
<number > 2010333 
< inputTime> 1992 — 01— 01 </ inputTime > 
</number > 
<name > 孙 五 </name > 
<birthDay > 1992 - 03 - 03 </birthDay > 
< Score> 433 </ score > 
</student > 
</ studentList > 


XPath 路 径 表 达 式 由 大和 十 “定位 步 ” 从 左 回 右 用 “/” 连 接 而 构成 。XPath 路 径 表 达 式 
分 为 绝对 路 径 和 相对 路 径 , 从 根 节 点 开始 (Document 布点 ) 的 路 径 表 达 式 称 为 绝对 路 径 ， 
否则 称 为 相对 路 径 。 

例如 ,对 于 上 述 例 3 中 的 XML 文件 example6 3. xml， 


/studentList/student/name 
就 是 一 个 绝对 路 径 , 即 用 “/” 开 始 的 就 是 绝对 路 径 。 而 
student /name 


就 是 一 个 相对 路 径 , 即 不 用 “/” 开 始 的 就 是 相对 路 径 。 
6.3.2 定位 步 与 节点 集 


1. 定位 步 
“定位 步 ? 是 构成 XPath 的 基本 单位 ,用 于 确定 出 相应 的 若干 个 节点 ,本 节 将 详细 讲 
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解 各 种 “定位 步 ” 及 其 作用 (读者 请 注意 ,以 下 用 的 标记 名 称 均 来 自前 面 例 3 中 的 
example6_3. xml) 。 

一 个 定位 步 由 轴 (axis) .六 点 测试 (node test) 和 可 选 的 谓词 所 构成 。 

定位 步 的 格式 : 


轴 : :节点 测试 [谓词 ] 


2. 定位 步 与 节点 的 寻找 

定位 步 的 作用 是 找 出 节点 。 定 位 步 中 轴 的 作用 是 在 树 形 结构 数据 中 给 出 寻找 Node 
节点 的 方向 ; 节点 测试 的 作用 是 给 出 寻找 的 Node 节点 应 当 属 于 哪 种 细 分 的 类 型 ,例如 应 
当 是 Element 或 Text 类 型 等 ; 谓词 的 作用 是 给 出 所 寻找 的 节点 所 需要 满足 的 进一步 的 
条 件 ( 定 位 步 的 谓词 是 可 选项 )。 

在 使 用 定位 步 的 时 候 , 必 须 给 出 一 个 该 定位 步 的 节点 , 称 为 该 定位 步 的 上 下 文 节点 
(Context Node) ,人 简称 当前 节点 。 

当前 节点 使 用 定位 步 寻 找 节 点 ,例如 ,对 于 定位 步 : 


child: :Score 


上 述 定 位 步 的 轴 是 child, 那 么 当前 节点 使 用 child 轴 寻 找 当 前 节点 的 全 部 Node 类 型 子 节 
点 。 节 点 测试 score 的 作用 是 限定 所 寻找 的 子 节点 的 名 字 必 须 是 score, 类 型 必须 是 
Element 类 型 ( 当 一 个 节点 测试 是 标记 的 名 字 时 ,其 作用 是 寻找 Element 类 型 节点 , 见 
6.3.4 小 节 )。 因 此 ,当前 节点 使 用 定位 步 : 


child: :Score 


所 寻找 出 的 节点 集 就 是 当前 节点 的 全 部 名 字 为 score 的 Element 类 型 子 节 点 。 
如 果 对 寻找 的 节点 有 特殊 的 要 求 , 就 可 以 使 用 谓词 ,谓词 和 节点 测试 是 所 寻找 的 节点 
必须 要 满足 的 条 件 。 例 如 ,对 于 定位 步 : 


child: :score[position( ) =2]( 缩 写 形式 是 score[2]) 


使 用 上 述 定位 步 的 当前 节点 首先 要 使 用 child 轴 和 节点 测试 寻找 出 当前 节点 的 名 字 是 
score 的 全 部 Element 类 型 子 节点 ,然后 再 使 用 谓词 Lposition 二 2] 从 中 筛选 出 第 2 个 Element 
子 节 点 (Element 节点 的 顺序 就 是 指 所 对 应 的 XML 文件 中 标记 出 现 的 先后 顺序 )。 

3. XPath 路 径 表达 式 与 节点 集 

XPath 路 径 表 达 式 由 硅 干 “定位 步 ” 从 左 回 右 用 “/” 连 接 而 构成 ,XPath 绝对 路 径 以 根 
节点 (Document 节点 ) 开 始 。 

XPath 绝对 路 径 可 以 准确 地 确定 出 一 个 节点 集 。XPath 绝对 路 径 是 以 Document 市 
点 作为 第 1 个 定位 步 ,该 定位 步 不 需要 有 轴 \、 谓 词 ,习惯 上 称 Document 节点 为 虚 节 点 , 因 
为 在 XPath 绝对 路 径 中 ,无 法 显示 地 写 出 该 节点 。 夺 绝对 路 径 中 的 第 2 个 定位 步 是 
XML 文件 的 根 标 记 的 名 字 , 那 么 Document 闻 点 使 用 该 定位 步 确定 出 的 节点 集 只 含有 一 
个 Element 节点 ; 在 绝对 路 径 中 的 第 2 个 定位 步 是 XML 文件 的 操作 指令 ,那么 
Document 节点 使 用 该 定位 步 确 定 出 的 节点 集 含有 一 个 或 几 个 Processing-Instruction 节 
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点 (如 图 6. 2 所 示 )。 

XPath 绝对 路 径 使 用 各 个 定位 步 最 终 寻找 出 一 个 节点 集 , 寻 找 节 点 的 规则 如 下 : 

假设 XPath 绝对 路 径 经 过 第 n 个 定位 步 后 寻找 出 的 第 mn 个 节点 集中 包含 有 m 个 节 
点 ,这 m 个 节点 按照 它们 在 XML 文件 对 应 的 顺序 进行 排列 ,序号 从 1 开始 ,然后 这 m 个 
节点 依次 使 用 第 n 十 1 个 定位 步 寻 找 节 点 ,它们 找 出 的 全 部 节点 就 是 XPath 绝对 路 径 经 
过 第 n 十 1 个 定位 步 后 寻找 出 的 第 n 十 1 个 节点 集 。 以 此 类 推 ,XPath 绝对 路 径 经 过 最 后 
一 个 定位 步 寻 找 出 的 节点 集 就 是 XPath 绝对 路 径 寻 找 出 的 节点 集 。 

XPath 路 径 表 达 式 寻找 出 的 节点 集 也 称 为 XPath 路 径 表 达 式 返回 的 节点 集 , 或 
XPath 路 径 表 达 式 的 “ 值 ”。 

例如 ,对 于 XPath 路 径 表 达 式 : 


/child: :studentList/child: :student/child: :name( 缩 写 /studentList/student/name) 


(1) 第 1 个 定位 步 

上 述 XPath 绝对 路 径 的 第 1 个 定位 步 是 Document 节点 ( 即 树 的 根 节 点 ,是 虚 节 点 )。 
(2) 第 2 个 定位 步 

上 述 XPath 绝对 路 径 的 第 2 个 定位 步 是 : 


child::studentList 


由 于 XML 文件 只 有 一 个 名 字 为 studentList 的 根 标记 ,所 以 Document 节点 使 用 该 
定位 步 寻 找 出 的 节点 集中 有 一 个 Element 节点 ,该 节点 的 名 字 是 studentList。 

(3) 第 3 个 定位 步 

上 述 XPath 绝对 路 径 的 第 3 个 定位 步 是 : 


child: :student 


XPath 路 径 在 第 2 个 定位 步 后 寻找 出 的 节点 (只 有 1 个 Element 节点 ,名 字 是 
studentList) 依 次 使 用 第 3 个 定位 步 寻 找 节 点 ,那么 XPath 路 径 经 过 第 3 个 定位 步 寻 找 出 的 
节点 集中 有 3 个 Element 节点 ,3 个 Element 节点 的 名 字 都 是 student,3 个 Element 节点 的 排 
列 顺序 就 是 XML 文件 中 标记 名 称 为 student 的 3 个 标记 在 XML 文件 中 出 现 的 先后 顺序 。 

(4) 第 4 个 定位 步 

上 述 XPath 绝对 路 径 的 第 4 个 定位 步 是 : 

child: :name 

XPath 路 径 在 第 3 个 定位 步 寻 找 出 的 节点 (有 3 个 Element 节点 ,名 字 都 是 student) 
依次 使 用 第 4 个 定位 步 寻找 节点 ,那么 XPath 路 径 经 过 第 4 个 定位 步 寻 找 出 的 节点 集中 
有 3 个 Element 节点 ,3 个 Element 节点 的 名 字 都 是 name,3 个 Element 节点 的 排列 顺序 
就 是 XML 文件 中 标记 名 称 为 name 的 3 个 标记 在 XML 文件 中 出 现 的 先后 顺序 。 

简单 地 说 ， 


/child: :studentList/child: :student/child: :name 


最 终 返 回 的 节点 集 就 是 XML 文件 中 名 称 是 name 的 全 部 标记 ,但 要 求 每 个 name 标记 的 
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1 级 父 标 记 的 名 字 必 须 是 student,2 级 父 标 记 的 名 字 必 须 是 studentList。 

注意 : 我 们 需要 将 节点 集中 的 节点 看 做 是 有 顺序 的 ,排列 顺序 是 按照 这 些 节 点 在 
XML 文件 中 对 应 的 操作 指令 、 标 记 、 文 本 或 注释 出 现 的 先后 顺序 ,因此 ,XPath 2.0 规范 
中 将 节点 集 称 为 一 个 序列 ,序列 的 每 个 分 项 是 一 个 节点 。 


0.3.3 轴 及 缩写 


XPath 路 径 表 达 式 中 的 定位 步 使 用 轴 来 定位 节点 ,而 节点 的 具体 类 型 由 节点 测试 负 
责 。 轴 是 定位 步 的 第 一 项 ,例如 child 轴 用 于 寻找 当前 节点 的 全 部 子 节 点 。 
例如 ,当前 节点 使 用 定位 步 


child: :student 
寻找 当前 节点 的 全 部 名 字 为 student 的 Element 子 节 点 。 当 前 节点 使 用 定位 步 : 
child: :student[position() =2] 


寻找 当前 节点 的 全 部 名 字 为 student 的 Element 子 节 点 中 的 第 2 个 Element 子 节点 。 
含有 child 轴 的 定位 步 : 


chilld: :节点 测试 

节点 测试 
即 省 略 “chilld: :”。 又 如 ， 

/child: :studentList/child: :student/child: :name 
的 缩写 是 : 

/studentList/student/name 


表 6. 2 是 第 用 轴 的 缩写 和 简单 的 示例 说 明 。 


表 6.2 轴 及 缩写 
轴 名 及 用 法 示 例 
当前 节点 | /child;:studentList/child;:;student/child::name 
child: :节点 测试 节点 测试 | 的 Node 子 | 缩写 : 
i /studentList/student/name 


当前 节点 | /studentList/student/descendant: : score 
descendant: :节点 测试 | /节点 测试 | 的 Node 子 | 缩写 : 

孙 节 点 /studentList/student/ /score 

当前 节点 | /studentList/student/name/parent: :student 
parent: :节点 测试 的 Node 父 | 缩写: 

i /studentList/student/name/.. 
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续 表 


未 例 


当前 节点 


/studentList/student/name/ancestor: : 


ancestor: :节点 测试 没有 缩写 的 Node 祖 
先 节 点 


studentList/ /score 


following: :节点 测试 没有 缩写 


当前 节点 
preceding: :节点 测试 没有 缩写 的 Node 见 | /studentList/student/preceding::student/name 
节点 
本 /studentList/student/name,/ self: :name 
二 当前 Node 
self : :节点 测试 a 缩写 : 
ie /studentList/student/name/ 


/studentList/student/following: : student/name 


attribute; :属性 名 @ 属 性 名 当前 节 反 /studentList/student/attribute: : sex 
| _ 所 关联 的 
attribute : : * (@ * 缩写 : 


Attiribute 


节点 


当前 节点 
所 关联 的 


/studentList/ student/ (@Q sex 


namespace: :节点 测试 | 没有 缩写 


/studentList/student/namespace: :pl 


Namespace 


节点 


以 下 例 4 中 的 Java 程序 使 用 Java XPath API 来 测试 表 6. 2 中 给 出 的 轴 , 所 使 用 
XML 文件 是 例 3 中 的 example6 3. xml, 有 关 Java XPath API 细节 将 在 6.5 节 讲 述 。 在 
运行 下 列 程序 时 ,在 命令 行 输入 XPath 路 径 表 达 式 即 可 ,图 6. 3(a) 是 在 命令 行 输入 


/studentList/student[1]/following: :student/name 


之 后 的 运行 效果 。 图 6. 3(b) 是 在 命令 行 输入 


/studentList/student[2]/following: :student/name 


之 后 的 运行 效果 。 


ath 表 达 式 : /studentList/student[1]/followine: :student/name 
点 集中 的 节 ， 点 个 数 :2 


点 的 名 宇 仿 次 汶 : 
1 个 节点 的 名 字 :name 
节点 的 名 字 :name 
(a) 


入 XPath 表达 式 : /studentList/student [2]/precedine: ;student/name 
训 入 中 的 节点 个 -1 


依次 为 ; 
1 个 节 和 的 名 字 : as 
(b) 


图 6.3 测试 各 种 轴 
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【 例 4】 


XPathFour. java 


import javax. xml.xpath. 关 ; 
import org. xml. sax. *，; 
import org.w3c.dom. x* ; 
import java. io. 关 ; 
import Java.util. x*; 
public class XPathFour{ 
public static void main(String args[ ] ){ 
try{ XPathFactory xPathFactory = XPathFactory. newInstance( ) ; 
XPath xPath = xPathFactory. newXPath( ) ; 
Scanner reader = new Scanner(System. in); 
String fileName = "example6 3.xml"; 
InputSource source = new InputSource(fileName) ; 
System. out. print(" 输 入 XPath 表达 式 :"); 
String path = reader. nextLine( ); 
NodeList nodelist = 
(NodeList)xPath. evaluate(path, source, XPathConstants. NODESET) ; 
int size= nodelist. getLength!( ); 
System. out. println(" 节 点 集中 的 节点 个 数 :" + size); 
System. out. println(" 节 点 的 名 字 依 次 为 :"); 
for(int k= 0;k <size;k+ + ){ 
Node node = nodelist. item(k); 
String name = node. getNodeName( ) ; 
System. out. println(" 第 "+ (k+1) + "个 节点 的 名 字 :" + name); 
} 
} 
catch(Exception exp){ 
System. out. println( exp); 
} 
} 


6.3.4 节点 测试 


我 们 已 经 知道 ,XPath 路 径 表 达 式 由 奎 干 定位 步 ” 从 左 同 右 用 “/” 连 接 而 构成 路 径 ， 
而 定位 步 又 是 由 轴 (axis) .节点 测试 Cnode test) 和 可 选 的 谓词 所 构成 。 使 用 定位 步 的 当 
前 节点 根据 轴 确 定 所 寻找 的 节点 的 方 回 , 根 据 节 点 测试 确定 所 寻找 的 节点 的 具体 类 型 (有 
关节 点 的 类 型 参见 6. 2 节 )。 

一 个 节点 测试 可 以 是 标记 的 名 字 、text() .node() 、comment() 等 。 例 如 , 当 一 个 节点 
测试 是 标记 的 名 字 时 ,其 作用 是 寻找 Element 类 型 节点 , 即 寻找 XML 文件 中 具有 指定 名 
称 的 标记 。 当 节点 测试 是 text() 时 ,其 作用 是 寻找 Text 类 型 节点 , 即 寻找 XML 文件 中 
标记 包含 的 文本 。 下 面 的 表 6. 3 给 出 了 各 种 节点 测试 和 作用 。 
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表 6.3 节点 测试 和 作用 


节点 测试 作用 描述 
标记 的 名 字 寻找 指定 名 字 的 Element 类 型 节点 
text() 寻找 Text 类 型 节点 
node() 寻找 Node 类 型 节点 
x 寻找 任意 名 字 的 Element 类 型 节点 
processing-instruction( ) 寻找 Processing-Instruction 类 型 节点 
comment( ) 寻找 Comment 类 型 节点 


结合 下 面 的 例 5 中 的 XML 文件 example6_5. xml 来 讲解 各 种 节点 测试 。 
【 例 5】 


example6_5. Xml 


<?Xxml version= "1.0" encoding = "UTF— 8" ?> 
< 列车 时 刻 表 > 
< 列车 类 别 =" 特 快 "车厢 数 目 = "20 节 车 厢 "> 
< 列车 号 码 > 152 次 </ 列 车 号 码 > 
< 始 发 时 间 > 09:12 </ 始 发 时 间 > 
< 到 达 时 间 > 19:23 </ 到 达 时 间 > 
< 始 发 站 > 北京 </ 始 发 站 > 


< 终 到 站 > 上 海 </ 终 到 站 > 

</ 列 车 > 

< 列车 类 别 = " 普 快 ”车厢 数目 = "12 节 和 车厢"> 
< 列车 号 码 > 168 次 </ 列 车 号 码 > 


< 始 发 时 间 > 10:12 </ 始 发 时 间 > 
< 到 达 时 间 > 21:36 </ 到 达 时 间 > 
< 始 发 站 > 沈阳 </ 始 发 站 > 


< 终 到 站 > 南京 </ 终 到 站 > 
</ 列 车 > 
</ 列 车 时 刻 表 > 


下 面 的 例 6 中 使 用 Java XPath API 和 例 5 中 的 XML 文件 来 测试 各 种 XPath 路 径 表 
达 式 的 效果 ,为 了 使 用 方便 , 例 6 采 用 了 GUI 界面 。 
【 例 6】 


XPathWindow. java 


import Javax. xml.xpath. x ; 
import org. xml. sax. x*，; 
import org.w3c. dom. x ; 
import Java.awt. 关 ; 
import Java. awt. event. x*; 
import JjJavax. swing. 关 ; 
public class example6 5 { 
public static void main(String args[ ] ){ 
XPathWindow win = new XPathWindow( "a. xml" ); 


} 
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class XPathWindow extends JFrame implements ActionListener{ 
XPathFactory xPathFactory; 
XPath xPath; 
InputSource Source; 
JTextField inputXPath; 
JTextArea showResult; 
JButton button; 
public XPathWindow( String fileName){ 
try{ xPathFactory = XPathFactory. newInstance( ); 
XPath = xPathFactory. newXPath( ); 
source = new InputSource(fileName); 
inputXPath = new JTextField( 25); 
showResult = new JTextAreal( ); 
button = new JButton(" 确 定 "); 
button. addActionListener(this); 
inputXPath. addactionListener(this ) ; 
JPanel north = new JPanel( ) ; 
north. add(new Label( "XPath 表达 式 :")); 
north. add( inputXPath) ; 
north. add(button ) ; 
add(north, BorderLayout. NORTH) ; 
add(new JScrollPane( showResult), BorderLayout. CENTER ) ; 
setBounds( 10, 10,900,300); 
setVisible(true); 
setDefaultCloseOperation(JFrame. EXIT ON CLOSE); 
} 
catch(Exception exp){ 
System. out. println( exp); 


} 
public void actionPerformed(ActionEvent e){ 
showResult. setText (null); 
String path = inputXPath. getText( ); 
try{ 
NodeList nodelist = 
(NodeList)xPath. evaluate(path, source, XPathConstants. NODESET) ; 
int size = nodelist. getLength!( ); 
showResult. append( "节点 集中 的 节点 个 数 :" + size + "\n"); 
showResult.append(" 节 点 的 名 字 以 及 节点 的 值 依次 为 :\n"); 
for(int k= 0;k<size;k+ + ){ 
Node node = nodelist. item(k); 
String name = node. getNodeName( ) ; 
showResult. append(" 第 " + (k+1) + "个 节点 的 名 字 :" + name + ","); 
String value = node. getNodeValue!( ) ; 
showResult. append( "第 " + (k+1) + "个 节点 的 值 :" + value + "\n"); 


} 
catch( Exception exp){ 


showResult. setText (null ); 
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showResult. append(" 异常 :"+exp); 
} 


} 
以 下 是 几 种 市 点 


测试 的 XPath 路 人 径 表达 式 的 示例 ,读者 可 以 运行 上 i 


述 例 6 中 的 


XPathWindow. java 来 观察 以 下 给 出 的 XPath 路 径 表 达 式 中 节点 测试 的 效果 。 


(1) /child::node() (缩写 : /node() ) 

该 路 径 表 达 式 将 返回 Document 节点 的 
全 部 Node 子 节 点 (不 包括 Atrribute 和 
Namespace 闻 点 , 见 6. 2 Dba 点 关系 )。 
在 例 6 的 XPathWindow. java 运行 界面 的 文 
本 杠 中 输入 XPath 有 路径 表达 式 : /node() , 然 
后 单 击 “ 确 定 ” 按 钮 ,程序 的 运行 效果 如 图 6. 4 
所 示 。 


(2) /child: :列车 时 刻 表 /child: :列车 (缩写 : 


2 PriR 


XPath 表达 式 : Inode0 | | 


节点 集中 的 节点 个 数 : 
节点 的 名 字 以 及 节点 的 值 全 次 为 
第 1 个 节点 的 名 字 - 列 车 时 刻 表 ,第 1 个 节点 的 值 :null 


图 6.4 测试 XPath 路 径 表 达 式 (一 ) 


/列车 时 刻 表 / 列 车 ) 


该 路 径 表达 式 将 返回 “列车 时 刻 表 ”节点 的 两 个 “列车 ” 子 节点 。 在 例 6 的 运行 界面 的 


wa XPath 路 径 表 达 式 : 
效果 如 图 6.5 所 示 。 


(3) /child: :列车 时 刻 表 /child: :列车 Lposition() 二 1j/child:: 


写 : /列车 时 刻 表 /列车 [1J/ x /text()) 


该 路 径 表 达 式 将 返回 第 一 个 “列车 ?节点 的 所 有 子孙 Text 节点 
/列车 时 刻 表 /列车 [1]/* text0， 然后 单 击 “ 确 定 ” 


的 文本 框 中 输入 XPath 路 径 表 达 式 
按钮 ,程序 的 运行 效果 如 图 6.6 所 示 。 


轿 PT 


XPath 表 达 式 。 [而 | 千 时 刘表 而 车 | | 


节点 集中 的 节点 个 数 :2 

节点 的 名 字 以 及 节点 的 值 依次 为 : 

第 1 个 节点 的 名 宇 :列车 第 1 个 节点 的 值 :null 
第 2 个 节点 的 名 宇 :列车 第 2 个 节点 的 值 :null 


图 6.5 测试 XPath 路 径 表 达 式 (二 ) 


6.4 请 


/列车 时 刻 表 /列车 ,然后 单 击 “ 确 定 ” 按 钮 ,程序 的 运行 


基 /child : text( ) (2 


。 在 例 6 的 运行 界面 


= CJ A 


XPath 表达 式 : | 网 车 时 刻 束 出 车 [1 ]#itext0 La | 


第 1 个 节点 的 名 字 渤 te 闻 第 1 个 节点 的 值 :152 次 全 | 
第 2 个 节点 的 名 字 :#text, 第 2 个 节点 的 值 :09:12 网 
第 3 个 节点 的 名 字 : 茜 ext 第 3 个 节点 的 值 :19:23 
第 4 个 节点 的 名 字 :#te 闻 第 4 个 节点 的 值 北 京 
第 5 个 节点 的 名 字 : 震 ext 第 5 个 节点 的 值 :上 海 

= 


图 6.6 测试 XPath 路 径 表 达 式 (三 ) 


训 


谓词 (Predicates) 是 定位 步 中 最 吸引 人 的 部 分 ,所 以 单独 用 一 节 来 讲述 。 


6.4.1 谓词 的 格式 与 作用 


谓词 的 目的 是 给 出 


定位 步 所 寻找 出 的 节点 需 满足 的 进 一 


步 条 件 , 即 当前 节点 在 使 用 
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定位 步 的 轴 和 节点 测试 找 出 知 干 个 节点 后 ,再 使 用 谓词 从 这 些 节 点 中 筛选 出 满足 谓词 条 
件 的 节点 。 谓 词 是 用 一 对 中 括号 括 起 来 的 条 件 表 达 式 ,谓词 格式 是 : 
[条 件 表达 式 ] 


谓词 中 的 条 件 表 达 式 是 和 节点 有 关 的 一 个 表达 式 , 其 值 是 true 或 false, 当 条 件 表 达 
式 的 值 是 true 时 , 称 节点 满足 谓词 给 出 的 条 件 ,否则 称 节点 不 满足 谓词 给 出 的 条 件 。 

在 谓词 中 使 用 or,and 来 表示 逻辑 关系 ,使 用 = ，!=，, 二 =, 二, 二 三 ,二 表示 大 小 关 
系 。 例 如 : 


[position( )<= 4 and position()<=8] 


如 果 大 小 关系 符 比较 的 内 容 都 是 数字 字符 ,关系 运算 将 按 数字 比较 大 小 ,否则 只 能 使 
用 “二 "关系 运算 比较 两 个 字符 串 是 否 相 同 。 
我 们 已 经 知道 XPath 路 径 表 达 式 由 奋 干 个 "定位 步 ? 构 成 ,而 定位 步 的 基本 格式 是 : 


轴 : :节点 测试 [谓词 ] 


定位 步 的 作用 是 让 当前 节点 使 用 它 寻 找 节 点 ,一 个 XPath 路 径 表 达 式 每 经 过 一 个 定 
位 步 都 将 寻找 出 一 个 节点 集 。 

XPath 绝对 路 径 的 目的 是 寻找 出 一 个 节点 集 , 其 规则 是 :“XPath 绝对 路 径 经 过 第 
n 个 定位 步 后 寻找 出 的 第 n 个 节点 集 包 含有 m 个 节点 ,这 m 个 节点 按照 它们 在 XML 文 
件 中 对 应 的 顺序 进行 排列 ,序号 从 1 开始 ,然后 这 m 个 节点 依次 使 用 第 n 十 1 个 定位 步 寻 
找 节点 ,它们 找 出 的 全 部 节点 就 是 XPath 绝对 路 径 经 过 第 n 十 1 个 定位 步 后 寻找 出 的 第 
n 十 1 个 节点 集 。 以 此 类 推 ,XPath 绝对 路 径 经 过 最 后 一 个 定位 步 寻 找 出 的 节点 集合 就 是 
XPath 绝对 路 径 寻 找 出 的 节点 集 。” 

使 用 带 有 谓词 定位 步 : 


轴 : :节点 测试 [谓词 ] 
的 当前 节点 首先 根据 轴 和 节点 测试 寻找 出 奉 干 个 节点 ,然后 从 这 些 节 点 中 再 入选 出 满足 


谓词 条 件 的 节点 , 即 筛选 出 使 得 谓词 中 条 件 表达 式 为 true 的 节点 。 
例如 ,对 于 XPath 路 径 表 达 式 : 


/child: :列车 时 刻 表 /child: :列车 [position() = 2]/child: : 始 发 站 /child: :text() 
(缩写 : /列车 时 刻 表 /列车 [2]/ 始 发 站 /text() ) 


(1) 第 1 个 定位 步 

上 述 XPath 绝对 路 径 的 第 1 个 定位 步 是 Document 节点 ( 即 树 的 根 节 点 ,是 虚 节 点 ) 。 

(2) 第 2 个 定位 步 

child: :列车 时 刻 表 

由 于 XML 文件 只 有 一 个 名 字 为 “列车 时 刻 表 ” 根 标 记 , 所 以 Document 节点 使 用 该 定 
位 步 寻 找 出 的 节点 集中 有 一 个 Element 节点 ,该 节点 的 名 字 是 “列车 时 刻 表 ”。 
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(3) 第 3 个 定位 步 
child: :列车 [2] 


XPath 路 径 在 第 2 个 定位 步 寻 找 出 的 节点 (只 有 一 个 Element 节点 ) 依 次 使 用 第 3 个 
定位 步 寻 找 Element 节点 ,那么 XPath 路 径 经 过 第 3 个 定位 步 寻 找 出 的 节点 集中 有 1 个 
Element 节点 (对 应 着 XML 文件 中 的 第 2 个“ 列车” 标记), 这 个 Elemnet 节点 的 名 字 是 
Ep 

(4) 第 4 个 定位 步 


child:: 始 发 站 


XPath 路 径 在 第 3 个 定位 步 寻 找 出 的 节点 (一 个 Element 节点 ) 依 次 使 用 第 4 个 定位 
步 寻 找 Element 节点 ,那么 XPath 路 径 经 过 第 4 个 定位 步 寻 找 出 的 节点 集中 有 1 个 
Element 节点 ,这 个 Elemnet 节点 的 名 字 是 “ 始 发 站 ”( 对 应 着 XML 文件 中 包含 文本 内 容 
分 别 是 “沈阳 ”的 “ 始 发 站 ”标记 )。 

(5) 第 5 个 定位 步 


child: :text() 


XPath 路 径 在 第 4 个 定位 步 寻 找 出 的 节点 (1 个 Element 节点 ) 依 次 使 用 第 5 个 定位 
步 寻 找 Text 节点 ,那么 XPath 路 径 经 过 第 4 个 定位 步 寻找 出 的 节点 集中 有 1 个 Text 市 
点 ,这 个 Text 节点 的 名 字 是 “#text”, 包 含 的 文本 内 容 是 “沈阳 ”。 

在 例 6 的 XPathWindow.java 运行 界面 的 文本 框 中 输入 XPath 路 径 表 达 式 : /列车 
时 刻 表 /列车 [2]/ 始 发 站 /text(0) ,然后 单 击 “ 确 定 ” 按 钮 ,程序 的 运行 效果 如 图 6.7 所 示 。 


XPath 表达 式 : | 出 车 时 刘表 而 车 [2] 虹 发 站 /text0 


节点 集中 的 节点 个 数 :1 
节点 的 名 字 以 及 节点 的 值 依次 为 : 
第 1 个 节点 的 名 字 : 境 te 疙 第 1 个 节点 的 值 沈 阳 


图 6.7 在 定位 步 中 使 用 谓词 


6.4.2 寻找 特殊 位 置 的 节点 


在 谓词 中 使 用 position() 和 last() 困 数 可 以 寻找 指定 位 置 上 的 节点 。 
例如 ,对 于 定位 步 : 
轴 : :节点 测试 [position() =2]( 缩 写 : 轴 :: 节 点 测试 谓词 [2] ) 

使 用 该 定位 步 的 当前 节点 所 寻找 的 是 满足 轴 和 市 点 测试 的 全 部 节点 中 的 第 2 个 节点。 
对 于 定位 步 : 


轴 : :节点 测试 [last() ] 
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使 用 该 定位 步 的 当前 节点 所 寻找 的 是 满足 轴 季 点 测试 的 全 部 节点 中 的 最 后 一 个 节点 。 
对 于 定位 步 : 
轴 :: 节 点 测试 [last() 一 1] 
使 用 该 定位 步 的 当前 节点 所 寻找 的 是 满足 轴 和 节点 测试 的 全 部 节点 中 的 倒数 第 2 个 
节 上 已。 
对 于 定位 步 : 
轴 :: 节 点 测试 [position()>=2 and position<=4] 


使 用 该 定位 步 的 当前 节点 所 寻找 的 是 满足 轴 和 节点 测试 的 全 部 节点 中 位 置 大 于 等 于 2 且 
小 于 等 于 4 的 节点 。 
对 于 定位 步 : 
轴 : :节点 测试 [position() = 1 or position=4] 
使 用 该 定位 步 的 当前 节点 寻找 满足 轴 和 节点 测试 的 全 部 节点 中 位 置 等 于 1 或 4 的 节点 。 
在 前 面 例 6 的 程序 提供 的 用 户 输入 文本 框 中 输入 XPath 路 径 表 达 式 : 


/列车 时 刻 表 /列车 [2]/ x [position()> =1 and position( )<= 3]/text() 


程序 的 运行 效果 如 图 6.8 所 示 。 


节点 集中 的 节点 个 数 :3 


节点 的 名 字 以 及 节点 的 值 依次 为 : 
第 1 个 节点 的 名 字 : 翌 et 第 1 个 节点 的 值 :168 次 
第 2 个 节点 的 名 字 : 坟 eX 第 2 个 节点 的 值 :10:12 
人 第 3 个 节点 的 名 字 : 展 et 第 3 个 节点 的 值 :21:36 


图 6.8 在 定位 步 中 使 用 位 置 谓词 
6.4.3 寻找 有 将 殊 属性 的 节点 


在 谓词 中 使 用 attribute 轴 或 @ 寻 找 具 有 指定 属性 或 属性 值 的 节点 。 
1. 寻找 具有 指定 属性 和 属性 值 的 节点 
如 果 要 寻找 具有 指定 属性 的 节点 ,可 以 在 谓词 中 使 用 : 


attribute: :属性 名 1 逻辑 关系 符 …attribute: :属性 名 n 


或 使 用 缩写 : 
@ 属 性 名 1 逻辑 关系 符 … @ 属 性 名 n 
例如 ,对 于 谓词 : 


[@ 类 别 and 外 车 厢 数 目 ] 


6 去 xpeth 语 让 1 
那么 满足 该 谓词 条 件 的 节点 必须 具有 名 字 为 类别” 和 "车厢 数 目 ” 属 性 的 标记 。 

如 果 要 寻找 具有 指定 属性 以 及 特定 属性 值 的 节点 ,可 以 在 谓词 中 使 用 : 

attribute: :属性 名 1 大 小 关系 符 ' 值 ' 逻辑 关系 符 …attribute: :属性 名 n 大 小 关系 符 ' 值 ' 
或 使 用 缩写 : 

@ 属 性 名 1 大 小 关系 符 ' 值 ' 逻辑 关系 符 … @ 属 性 名 n 大 小 关系 符 ' 值 ' 

例如 ,下 列 XPath 路 径 : 

/列车 时 刻 表 /列车 [@ 类 别 and @ 车 厢 数 目 > = 18 ] 
寻找 出 的 节点 集中 只 有 一 个 节点 ,该 节点 对 应 着 XML 文件 中 的 “列车 ”标记 ,该 标记 具有 
“类 别 ” 属 性 和 “车 打数 目 ” 属 性 ,有 是“ 车厢 数 日 ”属性 的 值 大 于 等 于 18。 

如 果 属 性 值 是 数字 就 可 以 用 大 小 关系 符 对 属性 值 进行 判断 比较 ,否则 只 能 使 用 “三 ” 
关系 运算 符 比较 属性 值 是 否 是 某 个 字符 串 。 例 如 : 

[@ 类 别 = ' 特快 '] 

如 果 寻 找 具 有 属性 ,但 对 属性 的 名 字 没 有 特殊 要 求 的 节点 ,就 可 以 使 用 谓词 : 

[ attribute: :xx] 
或 使 用 缩写 : 

[@ x] 
任何 具有 属性 的 节点 都 满足 上 述 谓 词 中 的 条 件 。 

2. 使 用 contains() 函数 

如 果 和 希望 寻找 具有 指定 属性 ,并 且 属 性 值 中 含有 指定 的 字符 串 时 ,就 可 以 在 谓词 中 使 
用 contains() 阴 数 , 格 式 是 : 

contains(@ 属 性 名 , ' 特定 字符 串 ') 

例如 ,对 于 定位 步 : 

轴 :: 节 点 测试 [contains(attribute: :属性 名 , ' 特定 字符 串 ')] 
或 

轴 : :节点 测试 [contains(@ 属 性 名 ,' 特定 字符 串 ' ) ] 


使 用 该 定位 步 的 当前 节点 所 寻找 的 是 满足 轴 和 节点 测试 的 全 部 节点 中 具有 指定 属性 名 的 
属性 , 且 属 性 值 包含 特定 字符 串 的 节操 。 


例如 ,对 于 定位 步 : 
child: :列车 [contains(@ 类 别 , ' 快 ')] 
使 用 该 定位 步 的 当前 节点 寻找 当前 节点 的 名 字 为 "列车 ”的 子 节点 ,而且 * 列 车 子 节点 必 


须 具 有 属性 “类 别 ”\ 该 属性 值 中 含有 字符 “ 快 ”。 
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再 例如 ,对 于 定位 步 : 
child:: 列 车 [contains(@ 类 别 , ' 特 ' ) or contains(@ 车 厢 数 目 , '2' )] 


使 用 该 定位 步 的 当前 节点 寻找 当前 节点 的 名 字 为 “列车 "的 子 节点 ,而 且 * 列 车 " 子 节点 必 
须 有 属性 "类别" 该 属性 值 中 含有 字符 “ 特 ”, 或 具有 属性 “车 古 数 目 ”、 该 属性 值 中 含有 字 
符 2”。 

在 例 6 的 运行 界面 的 文本 框 中 输入 XPath 路 径 表 达 式 : 

/列车 时 刻 表 /child: :列车 [contains(@ 类 别 , ' 特 ')] 


程序 的 运行 效果 如 图 6.9 所 示 。 


3 -IOI x| 
XPath 表达 式 : | 列 和 时刻 表 ichild: 列 车 [contains(@ 交 别 , 特 | 本 二 二 


他 点 集中 的 节点 个 数 : 
节点 的 名 字 以 及 节点 的 值 依次 为 
他 1 个 节点 的 名 宇 :列车 第 1 个 节点 的 值 :nul 


6.9 寻找 具有 指定 属性 的 节点 
6.4.4 寻找 有 特殊 关系 节点 的 节点 


1. 寻找 具有 特殊 关系 节点 的 市 点 

如 果 要 寻找 具有 特殊 关系 节点 的 节点 ,但 对 该 特殊 关系 节点 包含 的 内 容 没 有 特殊 的 
要 求 , 可 以 在 谓词 中 使 用 : 

轴 : :特殊 关系 节点 名 称 1 逻辑 关系 符 轴 :: 特殊 关系 节点 名 称 2… 轴 :: 特殊 关系 节点 名 称 n 
那么 满足 该 谓词 条 件 的 节点 必须 和 谓词 中 的 节点 形成 轴 所 指定 的 特殊 关系 。 例 如 ,对 于 


谓词 : 


[child: :列车 号 码 and child: : 始 发 时 间 ] 


或 缩写 : 
[列车 号 码 and 始 发 时 间 ] 

满足 该 谓词 条 件 的 节点 必须 有 名 字 是 “列车 号 码 ” 和 “ 始 发 时 间 ” 的 子 节点 。 
例如 ,对 于 谓词 : 
[following: :到 达 时 间 ] 

满足 该 谓词 条 件 的 节点 必须 有 名 字 是 “到 达 时 间 ” 的 弟 节点 。 


如 果 要 寻找 具有 特殊 关系 节点 的 节点 ,但 对 该 特殊 关系 节点 包含 的 内 容 有 特殊 的 要 
求 , 可 以 在 谓词 中 使 用 : 


轴 : : 特殊 关系 节点 名 称 1 大 小 关系 ' 值 ' 逻辑 关系 符 轴 : : 特殊 关系 节点 名 称 n 大 小 关系 ' 值 ' 
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那么 满足 该 谓词 条 件 的 节点 必须 和 谓词 中 的 节点 形成 轴 所 指定 的 特殊 关系 , 且 谓 词 中 的 
节点 所 包含 的 文本 必须 满足 谓词 中 给 出 的 条 件 。 例 如 ,对 于 谓词 : 

[child: :列车 号 码 = '152 次 ' and child:: 始 发 站 = ' 北 京 '] 
或 缩写 : 

[列车 号 码 ='152 次 ' and 始 发 站 = ' 北京 '] 
满足 该 谓词 条 件 的 节点 必须 有 名 字 是 “列车 号 码 ” 和 “ 始 发 站 ”的 子 节点 , 且 “ 列 车 号 码 ” 子 
节点 包含 的 文本 必须 是 152 次 ”， 始 发 站 ? 子 节 点 包含 的 文本 必须 是 “北京 ”。 

例如 ,对 于 谓词 : 

[following: : 始 发 站 = 'Beijing' ] 
满足 该 谓词 条 件 的 节点 必须 有 名 字 是 “ 始 发 站 ”的 第 节点 , 且 该 弟 节点 包含 的 文本 必须 是 
“Beljing ”。 

例如 ,对 于 谓词 : 

[child: :text() = 'hello' ] 
满足 该 谓词 条 件 的 节点 必须 有 Text 子 节 点 ,而 且 Text 子 节 点 包含 的 文本 必须 是 
“hello ”。 

如 果 节 点 包含 的 文本 是 数字 就 可 以 用 大 小 关系 符 对 文本 内 容 进行 判断 比较 ,否则 只 
能 使 用 “二 ”关系 运算 符 比较 文本 是 否 是 某 个 字符 串 。 

在 例 6 的 运行 界面 的 文本 框 中 输入 XPath 路 径 表 达 式 : 

/列车 时 刻 表 /child: :列车 [child: :列车 号 码 = '152 次 ' and child:: 始 发 站 = ' 北 京 '] 
或 缩写 

/列车 时 刻 表 /列车 [列车 号 码 = '152 次 ' and 始 发 站 = ' 北京 '] 

程序 的 运行 效果 如 图 6. 10 所 示 。 


节点 集中 的 节点 个 数 :1 
节点 的 名 字 以 及 节点 的 值 依次 为 : 
第 1 个 节点 的 名 字 : 列 车 ,第 1 个 节点 的 值 :null 


6.10 寻找 具有 指定 特殊 关系 节点 的 节点 


在 例 6 的 运行 界面 的 文本 框 中 输入 XPath 路 径 表 达 式 : 
/列车 时 刻 表 / child: :列车 / child:: 始 发 站 [child: :text() = ' 沈 阳 ' ]/child::text() 


/列车 时 刻 表 /列车 / 始 发 站 [text() = ' 沈 阳 ' ]/text() 


126 | XIL 基 础 教程 (第 2 版 ) 


程序 的 运行 效果 如 图 6.11 所 示 。 


| 节点 集中 的 节点 个 数 :1 


点 的 名 字 以 及 节点 的 值 依次 为 : 
| 第 1 个 节点 的 名 字 : 裕 eXt, 第 1 个 节点 的 值 :沈阳 


图 6.11 寻找 具有 指定 特殊 关系 节点 的 节点 


2. 使 用 contains() 函数 
如 采 要 寻找 具有 特殊 关系 节点 的 节点 , 且 特 殊 关 系 节 点 包含 的 文本 需要 含有 指定 的 
字符 串 时 ,就 可 以 在 谓词 中 使 用 contains() 男 数 ,格式 是 : 
contains( 轴 :: 节 点 名 称 , ' 特定 字符 串 ') 
例如 ,对 于 谓词 : 
[contains( 始 发 站 ， 京 ')] 
满足 该 谓词 条 件 的 节点 必须 有 名 字 为 " 始 发 站 ?的 子 节点 , 且 该 子 节点 包含 的 文本 中 含有 
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尿 。 

例如 ,对 于 谓词 : 
[contains(text( )，' 沈 ')] 

满足 该 谓词 条 件 的 节点 必须 有 Text 子 节 点 , 且 该 Text 市 点 包含 的 文本 中 含有 “ 沈 ”。 
在 例 6 的 运行 界面 的 文本 框 中 输入 XPath 路 径 表 达 式 : 
/列车 时 刻 表 / child: :列车 / 始 发 站 [contains(child: :text()，' 沈 ' )]/ child: :text() 

或 缩写 : 
/列车 时 刻 表 /列车 / 始 发 站 [contains(text()，' 沈 ' )]/text( ) 
程序 的 运行 效果 如 图 6.12 所 示 。 


国 - 品 > 二 | 口 | Xx| 
XPath 表达 式 : | 到 车 时 刻 表 刚 车 发 站 [containsttext0, 沈 Ytext0 | 谍 Y]text0 Lm | 


| 节点 集中 的 节点 个 数 :1 
| 节点 的 名 字 以 及 节点 的 值 依次 为 : 


| 第 1 个 节点 的 名 字 : 襟 eX 第 1 个 节点 的 值 :沈阳 


图 6.12 寻找 具有 指定 特殊 关系 节点 的 节点 
6.4.5 使 用 谓词 庶 套 寻找 节点 


谓词 的 作用 是 给 出 节点 需 满足 的 进一步 条 件 ,因此 人 允许 谓词 中 继续 使 用 谓词 。 


第 6 章 ”XPath 语言 | 127 


例如 ,对 于 谓词 : 
[节点 名 [@ 属 性 名 =' 特定 值 ' ]] 
满足 上 述 谓 词 的 节点 需要 有 指定 名 字 的 子 节 点 ,而 且 子 节点 必须 有 指定 的 属性 名 和 特定 
的 属性 值 。 
例如 ,对 于 谓词 : 
[following: :节点 名 [@ 属 性 名 = ' 特定 值 ' ]] 
满足 上 述 谓词 的 节点 需要 有 指定 名 字 的 第 节点 ,而 且 弟 节点 必须 有 指定 的 属性 名 和 属性 值 。 
例如 ,对 于 谓词 : 
[descendant:: 节 点 名 [@ 属 性 名 = ' 特定 值 ' ]] 
满足 上 述 谓词 的 节点 需要 有 指定 名 字 的 子孙 节点 ,而 且 子 孙 节 点 必须 有 指定 的 属性 名 和 
寺 定 的 属性 值 。 


在 例 6 的 运行 界面 的 文本 框 中 输入 XPath 路 径 表 达 式 (节点 名 字 是 “列车 ”, 且 该 * 列 
车 ”节点 具有 名 字 是 " 始 发 时 间 ?的 子孙 点, 且 " 始 发 站 ? 贡 点 包含 文本 “10 :”) : 


/列车 时 刻 表 /列车 [descendant: : 始 发 时 间 [contains(child::text()，'10:')]] 


程序 的 运行 效果 如 图 6.13 所 示 。 


加 
XPath 表达 式 : |/ 列车 时 刻 表 出 车 [descendant: 始 发 时 间 [containstchild:+text0,10:] 


节点 集中 的 节点 个 数 :1 
点 的 名 字 以 及 节点 的 值 依 次 为 : 
第 1 个 节点 的 名 字 : 列 车 ,第 1 个 节点 的 值 :null 


图 6.13 谓词 知 套 


注意 : 在 使 用 谓词 时 ,对 于 descendant 轴 不 要 使 用 缩写 形式 ,因为 缩写 形式 的 “/ ”已 
不 再 是 轴 的 名 字 或 定位 步 的 分 割 符 ,而 是 被 看 做 一 个 运算 符号 ,其 级 别 却 没有 谓词 “| ]” 的 
级 别 高 ,将 导致 节点 顺序 的 混乱 。 


6.5 下 点 集 上 使 用 谓词 


前 面 讲述 了 定位 步 中 的 谓词 用 法 ,XPath 允许 在 XPath 绝对 路 径 最 后 寻找 出 的 节点 
集 上 使 用 谓词 ,其 作用 是 从 当前 节点 集中 筛选 ,过滤 出 所 需要 的 节点 ,' 即 从 当前 节点 集中 
第 选 、 过 滤 出 一 个 子 集 。 其 使 用 格式 是 : 


(绝对 路 径 )[ 谓 词 ] 

例如 : 

(/ 列 车 时 刻 表 /列车 / 始 发 站 )[position() =11] 
得 到 的 节点 集 是 XPath 路 径 表 达 式 
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/列车 时 刻 表 / 列 车 / 始 发 站 
得 到 的 节点 集合 中 位 置 排序 为 1 的 节点 构成 的 子 集 , 即 
(/ 列 车 时 刻 表 /列车 / 始 发 站 )[position() =1] 


得 到 的 节点 子 集 中 只 有 一 个 节点 ,该 节点 名 字 为 " 始 发 站 ” ,包含 的 文本 内 容 是 “北京 ”。 


/列车 时 刻 表 /列车 / 始 发 站 [position() =11] 
寻找 节点 的 过 程 与 
(/ 列 车 时 刻 表 /列车 / 始 发 站 )[position()=1] 


寻找 节点 的 过 程 是 不 同 的 。 
例如 ,按照 绝对 路 径 寻 找 节点 的 规则 ( 见 6.3. 2 小 厄 )， 


/列车 时 刻 表 /列车 / 始 发 站 [position() =1] 


寻找 出 的 节点 集合 中 有 2 个 名 字 为 " 始 发 站 ”的 节点 (这 2 个 " 始 发 站 ?节点 包含 的 文本 内 
容 分 别 是 “北京 ?和 “沈阳 ”)。 
在 例 6 的 XPathWindow.java 运行 界面 的 文本 框 中 分 别 输入 XPath 路 径 表 达 式 : 


/列车 时 刻 表 /列车 / 始 发 站 [position() =11] 
和 

(/ 列 车 时 刻 表 / 列 车 / 始 发 站 )[position()=1] 
观察 程序 运行 结果 的 不 同 。 


6.6 刷 扩 集 的 并 运算 


XPath 语言 允许 将 多 个 XPath 路 径 表达 式 寻找 出 的 节点 集合 使 用 “1” 进行 集合 的 并 
运算 ,所 得 到 的 节点 集中 的 节点 按照 节点 在 XML 中 的 对 应 的 标记 或 文本 出 现 的 先后 顺 
序 排列 。 例 如 ,在 例 6 中 的 XPath 路 径 表 达 式 输入 框 中 输入 


/列车 时 刻 表 /列车 / 始 发 时 间 /text() |/ 列 车 时 刻 表 /列车 / 始 发 站 /text() 
程序 的 运行 效果 如 图 6.14 所 示 。 


二 | 口 | Xx 


XPath 表 达 式 : 局 出 车 出发 时 间 /text0l 列 车 时 刻 表 网 | 车 /地 发 站 /ext0 


点 集中 的 节点 个 数 :4 
节点 的 名 字 以 及 节点 的 值 依次 为 : 


第 1 个 节点 的 名 字 : 薪 eX 第 1 个 节点 的 值 :09:12 

第 2 个 节点 的 名 字 : 翌 e 对 第 2 个 节点 的 值 :北京 
3 个 节点 的 名 字 : 苷 ejt 第 3 个 节点 的 值 :10:12 

第 4 个 节点 的 名 字 : 补 eX 第 4 个 节点 的 值 沈 阳 


图 6.14 节点 集 的 并 运算 
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0.7 Java XPath API 


在 本 章 前 面 的 6. 1. 2 小 节 介绍 了 如 何 使 用 Java XPath API 处理 XPath 路 径 表 达 式 ， 
其 关键 是 使 用 Java XPath API 提供 的 XPath 对 象 调 用 evaluate() 方 法 来 计算 XPath 路 
径 表 达 式 。 

XPath 对 象 的 evaluate() 方 法 的 稼 用 格式 如 下 : 


Object evaluate( String expression, InputSource source, QName returnType) 


其 中 参数 expression 为 XPath 路 径 表 式 ; 参数 source 是 指向 XML 文件 的 InputSource 
对 象 ; 参数 returnType 可 以 取 值 为 : 


XPathConstants. NODESET 
XPathConstants. NODE 
XPathCconstants. STRING 
XPathConstants. NUMBER 
XPathConstants. BOOLEAN 


以 下 根据 参数 returnType 的 5 种 取 值 情况 分 节 讲 述 。 
6.7.1 按 NodeSet 计算 


当 XPath 对 象 调用 

eValuate( String expression, InputSource source, QName returnType) 
方法 ,并 将 参数 returnType 取 值 为 : 

XPathConstants. NODESET 


时 ,evaluate() 方 法 计算 的 结果 是 org. w3c. dom 包 中 的 一 个 NodeList 对 象 , 即 evaluate() 
方法 返回 org. w3c. dom 包 中 的 一 个 NodeList 对 象 ,该 NodeList 对 象 是 由 org. w3c. dom 
包 中 Node 对 象 组 成 的 一 个 节点 集 ( 有 关 Node 和 NodeList 可 参见 第 4 草 ), 有 关 例 题 可 
参见 前 面 的 例 2、 例 4 和 例 6。 


6.7.2 按 Node 计算 


当 XPath 对 象 调用 

eValuate( String expression, InputSource source, QName returnType) 
方法 ,并 将 参数 returnType 取 值 为 : 

XPathConstants. NODE 


时 ,evaluate() 方 法 计算 的 结果 是 org. w3c. dom 包 中 的 一 个 Node 对 象 , 即 evaluate() 方 
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法 返回 org. w3c. dom 包 中 的 一 个 Node 对 象 ,该 Node 对 象 对 应 着 XPath 路 径 表 达 式 
expression 返回 的 节点 集中 的 第 一 个 节点 。 

下 面 的 例 7 中 使 用 了 前 面 例 5 中 的 XML 文件 ,XPath 对 象 在 调用 evaluate() 方 法 
时 ,returnType 取 值 XPathConstants. NODE, 例 7 中 的 程序 输出 XPath 路 径 表 达 式 : 


"/ 列 车 时 刻 表 / 列 车 " 


得 到 的 节点 集中 第 一 个 节点 的 名 字 , 以 及 该 节点 和 全 部 子孙 节点 所 包含 的 文本 内 容 。 例 
7 中 XPathSeven. java 的 运行 效果 如 图 6.15 所 示 。 


【 例 7】 

XPathSeven. java ”152 次 
09:12 

import JjJavax. xml.xpath. x* ; J 


import org. xml. sax. 关 ; 
import org.w3c. dom. x* ; 
public class XPathSeven{ 图 6.15 按 Node 计算 节点 集 
public static void main(String args[ ]){ 
try{ XPathFactory xPathFactory = XPathFactory. newInstance( ); 
XPath xPath = xPathFactory. newXPath( ) ; 
InputSource source = new InputSource( "example6 5.xml"); 
String path="/ 列 车 时 刻 表 /列车 "; 
Node node = (Node)xPath. evaluate( path, source, XPathConstants. NODE) ; 
String name = node. getNodeName( ) ; 
String content = node. getTextContent( ); 
System. out. print (name); 
System. out. println(":" + content); 
} 
catch(Exception exp){ 
System. out. println( exp); 
} 
} 
} 


注意 : 属性 节点 的 名 字 就 是 属性 的 名 称 , 属 性 节点 包含 的 文本 就 是 该 属性 的 值 。 
6.7.3 按 字 符 串 计算 


当 XPath 对 和 象 调用 
evaluate( String expression, InputSource source, QName returnType) 
方法 ,并 将 参数 returnType 取 值 为 : 


XPathConstants. String 


时 ,evaluate() 方 法 计算 的 结果 是 一 个 String 对 象 , 即 evaluate() 方 法 返回 一 个 String 对 
象 ,该 String 对 象 对 应 着 XPath 路 径 表 达 式 expression 返回 的 节点 集中 的 第 一 个 节点 包 
含 的 文本 。 
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下 面 的 例 8 中 使 用 了 前 面 例 5 中 的 XML 文件 ,XPath 对 象 在 调用 evaluate() 方 法 
时 ,returnType 取 值 XPathConstants. String , 例 8 中 的 程序 输出 XPath 路 径 表 达 式 : 


"/ 列 车 时 刻 表 /列车 / 始 发 站 " 


得 到 的 节点 集中 第 一 个 节点 包含 的 文本 内 容 , 其 运行 效果 如 图 6. 16 所 示 。 
【 例 8】 


XPathEight. java 
区 于 包含 的 文本 : 
import javax. xml.xpath. x*; t 京 


import org. xml. sax. x*; 
import org.w3c. dom. x* ; 图 6.16 按 STRING 计算 节点 集 
public class XPathEight{ 
public static void main(String args[ 1){ 
try{ XPathFactory xPathFactory = XPathFactory. newInstance( ) ; 
XPath xPath = xPathFactory. newXPath( ); 


InputSource source = new InputSource( "example6 5.xml" ); 

String path="/ 列 车 时 刻 表 /列车 / 始 发 站 "; 

String stateName = (String)xPath. evaluate(path, source, XPathConstants. STRING) ; 
System. out. println(" 始 发 站 标记 包含 的 文本 :"); 

System. out. Print(stateName ) ; 


} 
catch(Exception exp){ 


System. out. println( exp); 
} 
} 


6.7.4 按 布 尔 值 计 算 


当 XPath 对 象 调用 

evaluate( String expression, InputSource source, QName returnType) 
方法 ,并 将 参数 returnType 取 值 为 : 

XPathConstants. BOOLEAN 


时 ,evaluate() 方 法 计算 的 结果 是 一 个 Boolean 对 象 , 即 evaluate() 方 法 返回 一 个 Boolean 
对 象 。 如 果 XPath 路 径 表 达 式 expression 返回 的 节点 集 为 非 空 集合 ,evaluate 方法 返回 
的 Boolean 对 象 中 含有 一 个 值 为 true 的 boolean 类 型 数据 ,否则 返回 的 Boolean 对 象 中 含 
有 一 个 值 为 false 的 boolean 类 型 数据 。 


6.7.5 按 数 值 计 算 


当 XPath 对 象 调 用 
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eValuate( String expression, InputSource source, QName returnType) 
方法 ,并 将 参数 returnType 取 值 为 : 


XPathConstants. NUMBER 


时 ,evaluate() 方 法 计算 的 结果 是 一 个 Double 对 象 , 即 evaluate() 方 法 返回 一 个 Double 
对 象 ,该 Double 对 象 对 应 着 XPath 路 径 表 达 式 expression 返回 的 节点 集中 的 第 一 个 节点 
包含 的 文本 所 转换 成 的 Double 对 象 , 如 采 文 本 内 容 无 法 转化 为 Double 对 象 ,evaluate() 方 法 
返回 “NaN” ,表示 没有 这 样 的 数字 。 

下 面 的 例 9 中 有 一 个 描述 学 生成 绩 的 XML 文件 : example6_9. xml, 例 9 中 的 程序 在 
使 用 XPath 对 象 调用 evaluate() 方 法 时 ,returnType 取 值 XPathConstants. NUMBER ,程序 输 
出 学 生 的 平均 成 绩 , 其 运行 效果 如 图 6. 17 所 示 。 

【 例 9】 


example6_9. xml _ 
<?Xxml version= 1.0 encoding= UTF-8 ?> 
< 成 绩 表 > 
< 学 生 > 
< 姓名 > 张 三 </ 姓名 > 
< 成 绩 > 78 </ 成 绩 > 
</ 学生 > 
< 学 后 > 
< 姓名 > 李 四 </ 姓名 > 
< 成 绩 > 80 </ 成 绩 > 
</ 学 生 > 


</ 成 绩 表 > 


图 6.17 按 NUMBER 计算 节点 集 


XPathNine. java 


import jJavax. xml. xpath. x*; 
import javax. xml.xpath. x*; 
import org. xml. sax. 关 ; 
import org.w3c. dom. x* ; 
public class XPathNinef{ 
public static void main(String args[ ] ){ 
try{ XPathFactory xPathFactory = XPathFactory. newInstance( ) ; 
XPath xPath = xPathFactory. newXPath( ) ; 
InputSource source = new InputSource( "example6 9.xml"); 
double sum= 0; 
String path = "成 绩 表 /学 生 "; 
NodeList nodelist = 
(NodeList)xPath. evaluate(path, source, XPathConstants. NODESET) ; 
int size = nodelist. getLength( ); 
for(int i=1;i<= size;i+ + ){ 
path= "成 绩 表 /学 生 [" + i+"]/ 成 绩 "，; 
Double number = (Double)xPath. evaluate( path, source, XPathConstants. NUMBER ) ; 
double score = number. doubleValue( ) ; 
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sum= Sum 十 SCOTe; 

} 

double aver = sum/size; 

System. out. println(" 学 生 的 平均 成 绩 " + aver) ; 
} 
catch( Exception exp){ 

System. out. println( exp); 
} 


6.8 看 上 扣 集 与 卫 数 


为 了 计算 和 节点 集 有 关 的 数据 ,XPath 语言 给 出 了 几 个 作用 于 节点 集 上 的 晒 数 。 
1， count(Cnode-set) 函数 
count(Cnode-set) 果 数 返回 参数 指定 的 节点 集中 的 节点 的 个 数 ,例如 ， 


count(/ 列 车 时 刻 表 /列车 / 始 发 时 间 ) 


返回 的 值 是 2。 

2. sum(node-set) 函数 

sum() 图 数 将 节点 集中 的 节点 包含 的 文本 转换 为 数字 ,并 返回 它们 的 和 。 如 果 贡 点 
集中 的 某 个 节点 包含 的 文本 无 法 转换 为 数字 ,sum() 返 回 "NaN ”。 

下 面 例 10 中 的 XPathTen. java 在 XPath 路 径 表 达 式 返回 的 节点 集 上 使 用 sum() 据 
数 计算 了 例 9 中 example6_9. xml 文件 中 全 部 学 生 的 成 绩 之 和 ,以 及 平均 成 绩 。 

XPathTen. java 运行 效果 如 图 6. 18 所 示 。 


【 例 10】 
XPathTen. java 
:158.0 
import javax. xml. xpath. x ; Er 
import org. xml. sax. 关 ; 
import org. w3c. dom. x* ; 6. 18 使 用 sum() 隐 数 


public class XPathTen{ 
public static void main(String args[ ] ){ 
try{ XPathFactory xPathFactory = XPathFactory. newInstance( ) ; 
XPath xPath = xPathFactory. newXPath( ); 
InputSource source = new InputSource("example6 9. xml"); 
String countPath = "count(/ 成 绩 表 / 学 生 / 成 绩 )"; 
Double number = ( Double) xPath. evaluate ( countPath, source, XPathConstants. 
NUMBER ) ; 
double n = number. doubleValuel( ); 
String sumPath = "sum(/ 成 绩 表 /学 生 / 成 绩 )"，; 
Double sum = (Double)xPath. evaluate( sumPath, source, XPathConstants. NUMBER); 
double total = sum. doubleValue!( ) ; 
System. out. println(" 总 成 绩 :" + total); 
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double aver = total/n; 
System. out. println( "平均 成 绩 :" + aver); 
} 
catch( Exception exp){ 
System. out. println( exp); 
} 


6.9 图 书 查 询 


本 节 使 用 XPath 路 径 表 达 式 查询 一 个 描述 图 书信 息 的 XML 文件 ,在 下 面 的 例 11 
中 : XML 文件 book. xml 描述 图 书信 息 ; BookConditionWindow. java 负责 提供 输入 查 
询 条 件 的 界面 ; FindBookByXPath. java 负责 获取 BookConditionWindow. java 界面 中 输 
入 的 查询 条 件 , 并 根据 该 条 件 给 出 XPath 路 径 表 达 式 查询 book. xml; Application. java 
是 含有 main() 方 法 的 Java 应 用 程序 。 运 行 Application. java 的 效果 如 图 6. 19 所 示 。 
名 称 :春天 的 记忆 


作者 : 张 小 民 
价格 : 25 


图 书 ISBN 中 包含 | | 出 版 时 间 : 2010.10 


出 版 社 : 春日 出 版 社 


出 版 社 名 称 中 包含 : | 


图 6.19 图 书 查询 


【 例 11】 


book. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 


< 图 书 列表 > 
< 图 书 ISBN = '72349876'> 
< 名 称 > 美丽 的 假日 </ 名 称 > 


< 作者 > 张 三 </ 作 者 > 

< 价格 > 29 </ 价格 > 

< 出 版 时 间 > 2009.05 </ 出 版 时 间 > 
< 出 版 社 > 阳光 出 版 社 </ 出 版 社 > 


</ 图 书 > 
< 图 书 ISBN = '12345678'> 
< 名 称 > 冬天 的 阳光 </ 名 称 > 


< 作者 > 李 四 </ 作 者 > 
< 价格 > 18 </ 价格 > 
< 出 版 时 间 > 2010. 05 </ 出 版 时 间 > 
< 出 版 社 > 冬 冬 出 版 社 </ 出 版 社 > 
</ 图书 > 
< 图 书 ISBN = '87654321'> 
< 名 称 > 春天 的 记忆 </ 名 称 > 


第 6 章 ”XPath 语言 | "ss 


< 作者 > 张 小 民 </ 作 者 > 
< 价格 > 25 </ 价格 > 
< 出 版 时 间 > 2010. 10 </ 出 版 时 间 > 
< 出 版 社 > 春日 出 版 社 </ 出 版 社 > 
</ 图 书 > 
</ 图 书 列表 > 


Application. java 


public class Applicationf{ 
public static void main(String args[ ] ){ 
new BookConditionWindow!( ); 


} 
BookCondition Window. java 


import Java.awt. x*; 
import Javax. swing. *; 
public class BookConditionWindow extends JFrame { 
JTextField inputBookName, inputBookAuthor, inputBookISBN, inputPublish; 
JTextArea showResult; 
JButton button; 
Box baseBox ,boxV1 ,boxV2 ; 
BookConditionWindow( ){ 
inputBookName = new JTextField( 10); 
inputBookAuthor = new JTextField( 10); 
inputBookISBN = new JTextField( 10); 
inputPublish= new JTextField( 10); 
boxV1 = Box. createVerticalBox( ); 
boxV1. add(new Label( "图 书 名 称 中 包含 :")); 
boxV1. add(new Label(" 作 者 姓名 中 包含 :")); 
boxV1. add(new Label( "图 书 ISBN 中 包含 ") ) ; 
boxV1. add(new Label(" 出 版 社 名 称 中 包含 :")); 
boxV2 = Box. createVerticalBox( ); 
boxV2.add( inputBookName ) ; 
boxV2. add( inputBookAuthor); 
boxV2. add( inputBookISBN) ; 
boxV2. add( inputPublish); 
baseBox = Box. createHorizontalBox( ) ; 
baseBox. add(boxV1 ) ; 
baseBox. add(boxV2 ) ; 
JPanel west = new JPanel( ) ; 
west. add( baseBox); 
button = new JButton(" 确 定 "); 
west. add( button); 
add( west, BorderLayout. WEST) ; 
ShowResult = new JTextArea(10,10); 
showResult. setFont(new Font(" 宋 体 "”,EFont.PLRIN,12) ) ; 
add(new JScrollPane( showResult), BorderLayout. CENTER); 
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FindBookByXPath findBook; // 负 责 使 用 XPath 查询 图 书 的 对 象 

findBook = 

new FindBookByXPath( inputBookName, inputBookAuthor, inputBookISBN, inputPublish, 
showResult, "book. xml" ); 

button.addActionListener(findBook); 

setBounds(10,10,900,300); 

setVisible(true); 

setDefaultCloseOperation(JFrame. EXIT ON CLOSE); 


} 


FindBookByXPath. java 


import javax. xml.xpath. x ; 
import org.w3c.dom. 关 ; 
import javax. swing. *; 
import jJava.awt. event. x*; 
import org. xml. sax. * ; 
public class FindBookByXPath implements ActionListener { 
XPathFactory xPathFactory; 
XPath xPath; 
String positionPath; 
InputSource Source; 
JTextField inputBookName, inputBookAuthor, inputBookISBN, inputPublish; 
JTextArea showResult; 
FindBookByXPath(JTextField inputBookName, JTextField inputBookAuthor, 
JTextField inputBookISBN ,JTextField inputPublish, 
JTextArea showResult, String fileName){ 
this. inputBookName = inputBookName; 
this. inputBookAuthor = inputBookAuthor; 
this. inputBookISBN = inputBookISBN; 
this. inputPublish = inputPublish; 
this. showResult = showResult; 
xPathFactory = XPathFactory. newInstance( ); 
xPath = xPathFactory. newXPath( ) ; 
source = new InputSource(fileName); 
this. positionPath = positionPath; 
} 
public void actionPerformed( ActionEvent e){ 
showResult. setText (null); 
String bookName = inputBookName. getText().trim(); 
System. out. println(bookName); 
String authorName = inputBookAuthor. getText().trim( ); 
String ID= inputBookISBN. getText( ) .trim( ) ; 
String publish= inputPublish. getText().trim( ) ; 
String predicates = "[contains( 名 称 , '" + bookName+"') and "+ 
"contains( 作 者 ,'" +authorName +"') and "+ 
"contains(ISBN,'"+ID+"') and "+ 
"contains( 出 版 社 ,' "+publish+"')]"; // 谓 词 
String path="/ 图 书 列表 /图 书 " + predicates+"/x"; //XPath 路 径 表 达 式 
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System. out. println(path); 
try{ 
NodeList nodelist = 
(NodeList)xPath. evaluate( path, source, XPathConstants. NODESET); 
int size = nodelist. getLength!( ) ; 
for(int k=0;k<size;k+ + ){ 
Node node = nodelist. item(k); 
String name = node. getNodeName( ) ; 
showResult.append(" "+name+":"); 
String content = node. getTextContent( ); 
showResult. append( content + "\n" ); 
if(name. startsWith(" 出 版 社 ")) 
Li \n ) 
} 
} 
catch(Exception exp){ 
ShowResult. setText(null) ; 
showResult. append( "异常 :" + exp); 


站 6 


1. Element 类 型 节点 对 应 XML 中 的 标记 还 是 标记 中 的 文本 ? 
2. 阅读 下 面 的 XML 文件 ,回答 问题 。 


Xiti2. xml 


< 教学 楼 > 
< 教室 number = 'J301'> 
< 桌子 number = 'T199'> 
< 价格 > 109 </ 价 格 > 
</ 桌 子 > 
< 训 子 number = ' S102'> 
< 价格 > 360 </ 价 格 > 
</ 旧 子 > 
</ 教 室 > 
< 教室 number = 'J502'> 
< 果子 number = ' S502'> 


< 价格 > 396 </ 价 格 > 
</ 桌 子 > 
< 桌子 number = ' M202'> 
< 价格 > 267 </ 价 格 > 
</ 桌 子 > 
</ 教 室 > 


</ 教 学 楼 > 
下 列 XPath 路 径 表 达 式 返回 的 节点 集中 有 几 个 节点 ? 这 些 节点 都 是 什么 类 型 ? 这 
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些 节 点 分 别 对 应 着 XML 文件 中 的 哪些 标记 或 文本 数据 ? 

(1) /教学 楼 /教室 [1j/ 果 子 L1j/ 价 格 

(2) /教学 楼 /教室 /果子 Lcontains(@number,'02') and 价格 二 = 360 | 

(3) /教学 楼 /教室 /@ x 

(4) /教学 楼 /教室 /@number/parent: :教室 

(5) /教学 楼 /教室 L1]j/ 昌 子 L[2]j/preceding: :果子 /价格 /text() 

(6) /教学 楼 /教室 [2 ]/ x / x /text() 

(7) /教学 楼 /教室 | descendant : :价格 二 一 390 | 

(8) /教学 楼 /教室 /桌子 /价格 Ltext() 之 一 395] 

3. 阅读 下 列 文件 : Xiti3. xml 和 JavaXPath. java, 并 写 出 Java 程序 中 标注 的 【结果 1】 
至 【结果 4】。 

(1)【 续 采 11: 

(2)【 续 采 2】: 

(3)【 结 果 3】: 

(4)【 结 采 4]: 


Xiti3. Xml 


< 图 书 定 单列 表 > 
< 定单 ID = "A1001"> 
< 图 书 名 称 > Java 课程 设计 </ 图 书 名 称 > 
< 单价 > 20 </ 单 价 > 
< 订购 数量 > 2</ 订 购 数 量 > 
</ 定单 > 
< 定单 ID = "A1002"> 
< 图 书 名 称 > Java 设计 模式 </ 图 书 名 称 > 
< 单价 > 30 </ 单 价 > 
< 订购 数量 > 2 </ 订 购 数 量 > 
</ 和 定单 > 
< 定单 ID = "A1003"> 
< 图 书 名 称 > JSP 实用 教程 </ 图 书 名 称 > 
< 单价 > 25 </ 单 价 > 
< 订购 数量 > 2 </ 订 购 数量 > 
</ 定单 > 
</ 图 书 定单 列表 > 


JavaXPath. java 


import jJavax. xml. xpath. x*; 

import org. xml. sax. x*; 

import org.w3c. dom. * ; 

public class JavaXPathf{ 

public static void main(String argqs[ ] ){ 
try{ XPathFactory xPathFactory = XPathFactory. newInstance( ) ; 

XPath xPath = xPathFactory. newXPath( ); 
InputSource source = new InputSource( "Xiti3. xml" ); 
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String path = "/ 图 书 定 单列 表 / 定单 [L@ID= 'RAl001' ]/ 单 价 "; 
Double price = 
(Double)xPath. evaluate(path, source, XPathConstants. NUMBER ) ; 
path= "/ 图 书 定单 列表 /定单 [@ID = 'A1001' ]/ 订 购 数量 "; 
Double amount = 
(Double )xPath. evaluate(path, source, XPathConstants. NUMBER ) ; 
double totalPrice = amount. doubleValue( ) * price. doubleValue( ) ; 
path="/ 图 书 定单 列表 /定单 [@ID= 'A1001' ]/@1ID"; 
Node id= 
(Node)xPath. evaluate( path, source, XPathConstants. NODE ) ; 
String idNumber = id. getNodeValue( ); 
System. out. print (idNumber + "定单 的 总 额 :");  //【 结 果 1】 
System. out. println(totalPrice); //〖 结 果 2】 
String pathone = "/ 图 书 定单 列表 /定单 [contains( 图 书 名 称 , 'Java' ) ]/ 单 价 "; 
String pathTwo="/ 图 书 定单 列表 /定单 [contains( 图 书 名称 , 'Java' ) ]/ 订 购 数 量 "; 
NodeList nodelist = 
(NodeList)xPath. evaluate(pathOne + "|" + pathTwo, 
source, XPathConstants. NODESET ); 
int size= nodelist. getLength!( ); 
System. out. println( size); //【 结果 3】 
double priceSum = 0; 
int m= 0; 
while(m< size){ 
Node node = nodelist. item(m); 
double bookPrice = Double. parseDouble(node. getTextContent( ) .trim( )); 
node = nodelist. item(m+ 1); 
double bookAmount = Double. parseDouble(node. getTextContent( ).trim( ) ) ; 
priceSum = priceSum + bookPrice x bookAmount.; 
m= m+ 2; 
} 
System. out. println(priceSum); //【 结 果 4】 
} 
catch( Exception exp)!{ 
System. out. println( exp); 


} 


4. 有 如 下 的 XML 文件 : Xiti4. xml, 请 编写 Java 程序 (参考 例 10) ,计算 出 “货品 列 
表 ” 中 全 部 贫 品 的 总 重量 。 


Xiti4. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 货品 列表 > 
< 货品 > 
< 名 称 > 电视 机 </ 名 称 > 
< 重量 > 23. 8 </ 重 量 > 
</ 货 品 > 
< 货品 > 
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< 姓名 > 洗衣 机 </ 名 称 > 
< 重量 > 67. 2 </ 重 量 > 
</ 货 品 > 
< 货品 > 
< 名 称 > 冰箱 </ 名 称 > 
< 重量 > 89. 8 </ 重量 > 
</ 货 品 > 
</ 货 品 列表 > 


5. 参照 例 11 编写 一 个 学 生 基 本 信息 查询 系统 。 


XML 与 数据 库 


主要 内 容 

。 JDBC 

。 Microsoft Access 数据 库 
。 连接 数据 库 

。 XML 至 数据 库 

。 数据 库 至 XML 


许多 应 用 程序 都 使 用 数据 库 来 管理 .存储 数据 ,尽管 数据 库 在 数据 查询 修改、 保存 和 
安全 等 方面 有 着 其 他 数据 处 理 手段 无 法 蔡 代 的 地 位 ,但 随 关 网络 的 迅速 发 展 ,让 各 种 应 用 
程序 方便 地 交互 各 自 数据 库 中 的 数据 显得 越 来 越 重要 。 不 同 数据 库 之 间 因 为 数据 格式 和 
版 本 的 不 同 , 以 及 系统 设计 上 的 限制 ,使 得 不 同 数据 库 之 间 很 难 实现 方便 地 交互 数据 。 

XML 不 仅 能 使 应 用 程序 方便 地 组 织 数 据 的 结构 ,而 且 各 种 应 用 程序 通过 使 用 XML 
文件 可 以 方便 地 交互 它们 之 间 的 数据 。 因 此 ,一 个 应 用 程序 可 能 需要 将 数据 库 中 的 某 些 
数据 转化 为 XML 文件 ,以 便 与 其 他 程序 交互 这 些 数据 。 

本 章 主 要 从 以 下 两 个 方面 来 讲解 。 

。 一 个 应 用 系统 可 能 需要 将 数据 库 表 中 的 某 些 记录 转化 为 一 个 XML 文件, 以便 与 

其 他 系统 交互 数据 ,发 挥 XML 文件 在 数据 交换 上 的 优势 (如 图 7.1 所 示 )。 
。 系统 获得 一 个 XML 文件 后 ,可 能 需要 将 XML 文件 某 些 标记 中 的 内 容 转化 为 数 
据 库 中 表 的 一 条 记录 ,以便 发 挥 数据 库 在 管理 数据 方面 的 优势 (如 图 7. 1 所 示 )。 


<g00ds> 
<name> 由 视 </name> 
<price>6785</price> 

</goods> 


es 


XML 至 数据 库 


数据 库 全 XML 


7.1 XML 中 数据 与 数据 库 中 记录 的 相互 转化 


本 章 不 讲解 数据 库 , 因 此 要 求 读者 学 习 过 数据 库 的 一 些 基 本 知识 ,了 解 (关系 ) 数 据 库 
是 以 表 的 形式 来 组 织 数 据 的 ,而 表 是 记录 的 集合 。 
本 章 主 要 讲解 如 何 将 XML 文件 的 寿 干 标记 中 的 内 容 转 化 为 数据 库 中 表 的 一 条 记 
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录 ,以 及 如 何 将 数据 库 中 表 的 香干 条 记录 转化 为 一 个 XML 文件 。 
为 满足 本 音 的 需要 ,在 7. 1 节 介 绍 有 关 JDBC 的 知识 ,以 便 编 写 和 数据 库 交 互信 息 的 
Java 应 用 程序 。 


7.1 JDBC 


JDBC(Java DataBase Connectivity) 提 供 了 访问 数据 库 的 API, 即 由 一 些 Java 类 和 接 
口 组 成 ,是 Java 运行 平台 的 核心 类 库 中 的 一 部 分 。 使 用 JDBC 可 以 实现 对 数据 库 中 表 的 
记录 的 查询 ,修改 和 删除 等 操作 。JDBC 技术 在 数据 库 开发 中 占有 很 重要 的 地 位 , 它 操作 
不 同 的 数据 库 仅仅 在 连接 方式 上 有 差异 ,JDBC 的 应 用 程序 一 旦 和 数据 库 建 立 了 连接 ,就 
可 以 使 用 JDBC 提供 的 API 操作 数据 库 , 如 图 7.2 所 示 。 


使 用 JDBC 应 用 程序 所 驻 留 的 计算 机 


> 


图 7.2 使 用 JDBC 操作 数据 库 


7.2 Microsoft Access 数据 库 


JDBC 操作 不 同 的 数据 库 仅 仅 是 连接 方式 上 的 不 同 , 为 了 便于 教学 ,使 用 Microsoft 
Access 来 讲解 JDBC。 一 方面 ,考虑 到 许多 学 校 的 实验 环境 都 是 Windows 2000/XP 系 
统 , 在 安装 Office 的 同时 就 会 默认 地 安装 Microsoft Access 数据 库 管 理 系统 。 另 一 方面 ， 
Microsoft Access 也 是 常用 的 数据 库 管 理 系 统 之 一 ,具有 速度 快 、 使 用 方便 等 特点 。 

表 是 关系 型 数据 库 的 基本 单位 ,由 于 本 草 不 是 讲解 数据 库 设 计 , 因 此 本 节 只 是 简单 介 
绍 如 何 使 用 Microsoft Access 数据 库 管理 系统 创建 数据 库 和 在 数据 库 中 创建 表 。 


7.2.1 建立 数据 库 


单 击 Windows 2000/XP 系统 果 面 上 的 “开始 ”>“( 所 有 ) 程 序 ”>“Microsoft Office” 
“Microsoft Access” 选 项 启动 数据 库 管理 系统 ,然后 选择 新 建 数据 库 , 如 图 7.3 所 示 。 


图 7.3 新 建 数据 库 
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将 新 建 的 数据 库 命名 为 employee. mdb, 并 保存 到 磁盘 中 ,例如 保存 到 : C:\chapter7, 
7.2.2 创建 表 


创建 好 数据 库 后 ,就 可 以 在 该 数据 库 下 建立 
右 干 个 表 。 打 开 employee. mdb 数据 库 ,在 选择 界 
面 上 选择 "使 用 设计 央 创 建 表 ?选项 后 , 单 击 * 设 
计 ” 按 钮 ,将 出 现 创建 表 的 界面 ,使 用 该 界面 创建 
名 字 为 person 的 表 , 并 指定 字段 ( 列 ) 以 及 字段 的 图 7.4 创建 表 
数据 类 型 ,如 图 7.4 所 示 。 


7.3 连接 数据 库 


应 用 程序 为 了 能 和 数据 库 交 互信 息 ,必须 首先 和 数据 库 建立 连接 。 使 用 JDBC 的 应 
用 程序 无 论 采 用 哪 种 方式 连接 数据 库 ,部 不 会 影响 操作 数据 库 的 逻辑 代码 ,这 非常 有 利 
于 代码 的 维护 和 升级 。 本 章 的 XML 文件 都 需要 和 数据 库 建 立 连接 ,所 涉及 的 和 数据 
库 交 互信 息 的 代码 不 依赖 数据 库 的 连接 方式 ,因此 本 节 介 绍 常 用 的 连接 方式 之 一 一 一 
JDBC-ODBC 桥接 盘 。 


7.3.1 JDBC-ODBC 桥接 有 回 


应 用 程序 和 数据 库 建 立 连接 的 一 种 常见 方式 是 使 用 JDBC-ODBC 桥接 需 。 使 用 
JDBC-ODBC 桥接 需 方 式 的 机 制 是 ,应 用 程序 只 需 建立 JDBC 和 ODBC 之 间 的 连接 , 即 建 
立 JDBC-ODBC 桥接 大, 而 和 数据 库 的 连接 由 ODBC 去 完成 。 

JDBC-ODBC 桥接 需 的 优点 是 : ODBC(Open DataBase Connectivity) 是 Microsoft 5| 
进 的 数据 库 连 接 技术 ,提供 了 数据 库 访问 的 通用 平台 ,而 且 ODBC 驱动 程序 被 广泛 地 使 
用 ,建立 这 种 桥接 器 后 ,使 得 JDBC 有 能 力 访问 几乎 所 有 类 型 的 数据 库 。 缺 点 是 : 使 得 应 
用 程序 依赖 于 ODBC ,移植 性 较 差 ,也 就 是 说 ,应 用 程序 所 驻 留 的 计算 机 必须 提供 ODBC。 

应 用 程序 负责 使 用 JDBC 提供 的 API 建立 JDBC-ODBC 桥接 器 ,然后 应 用 程序 就 可 
以 请 求 和 数据 库 建 立 连接 ,连接 工作 由 ODBC 完成 。 

需要 强调 是 ,ODBC 使 用 “数据 源 ” 来 管理 数据 库 , 所 以 必须 事先 将 某 个 数据 库 设 置 成 
ODBC 所 管理 的 一 个 数据 源 ,应 用 程序 只 能 和 ODBC 管理 的 数据 源 建 立 连接 。 使 用 
JDBC-ODBC 桥接 器 方式 和 数据 库 建 立 连接 如 图 7. 5 所 示 。 


ES 
使 用 JDBC 应 用 程序 所 驻 留 的 计算 机 ODBC 数 据 源 _1 


应 用 程序 ODBC 数 据 源 2 
Cges= 一 


图 7.5 JDBC-ODBC 桥接 器 
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7.3.2 ODBC 数据 源 


和 藻 应 用 程序 要 与 7. 2 节 中 的 employee. mdb 数据 库 建 立 连接 , 则 需要 将 employee. 
mdb 数据 库 设置 成 一 个 ODBC 数据 源 。 应 用 程序 所 在 的 计算 机 负责 创建 数据 源 ,即将 本 
地 或 远程 机 上 的 数据 库 设 置 成 应 用 程序 要 访问 的 数据 源 。 因 此 ,必须 保证 应 用 程序 所 在 
计算 机 有 ODBC 系统 (Windows 2000、Windows XP 都 有 ODBC 系统 )。 创 建 ODBC 数据 
源 的 操作 步骤 如 下 。 

1. 创建 、 修 改 或 删除 数据 源 

选择 “控制 面板 ”>“ 管 理工 具 ”->“ODBC 数据 源 ”( 某 些 Windows XP 系统 , 需 选 择 
“控制 面板 ”>“ 性 能 和 维护 ”一 “管理 工具 ”一 “ODBC 数据 源 ”) 选 项 。 双 击 “ODBC 数据 
源 ” 图 标 , 出 现 “ODBC 数据 源 管理 侣 ”对 话 框 ,如 图 7.6 所 示 , 该 对 话 框 显示 了 用 户 已 有 的 
数据 源 的 名 称 。 选 择 " 用 户 DSN” 选 项 , 单 击 “ 添 加 ”按钮 ,可 以 创建 新 的 数据 源 ; 单 击 “ 配 
置 ” 按 钮 ,可 以 重新 配置 已 有 的 数据 源 ; 单 击 “ 删 除 ” 按 钮 ,可 以 删除 已 有 的 数据 源 。 


0DBC 数据 源 管 理 埠 
[用户 | 系统 DsN | 文件 DSH | 驱动 程序 | 跟踪 ”| 连接 池 | 关于 | 
用 户 数 据 源 0): 


名 称 |3 红 动 程序 | 添加 0)... | 
dBASE Files Microsoft dBase Driver (+, dbf) 
Excel Files Microsoft Excel Driver (*.x]s) 弄 障 (E) 


NS 上 Aceess Database Microsoft Access Driver (*.mdb) 


图 7.6 数据 源 管理 需 


2. 为 数据 源 选 择 驱 动 程序 

在 “ODBC 数据 源 管理 需 ? 对 话 框 (图 7.6 所 示 的 界面 ) 中 单 击 " 添 加 按钮, 出现“ 创建 
新 数据 源 ” 对 话 框 ,如 图 7.7 所 示 。 在 该 对 话 框 中 为 新 增 的 数据 源 选 择 驱 动 程序 ,因为 要 
访问 Microsoft Access 数据 库 , 所 以 选择 Microsoft Access Driver( x . mdb) , 单 击 “完成 ” 
按钮 。 


选择 您 想 为 其 安装 数据 源 的 驱动 程序 @)。 


Driver da Microsoft para arquivos texto (x*. 
Driver do Microsoft Access (*.mdb) EE 
Driver do Microsoft dBase (*. dbf) 司 
Driver do Microsoft Excel (*.xls) ! 
Driver do Microsoft Paradox (*,db ) 

Driver para 0 Microsoft Visual FoxPro 


Miorosaft pp ep x.mdb 
Microsoft dBase Driver (x*. dbf) 


Nicrosoft dBase VFP Driver (*. dbf) | 
mr | 岗 


《上 一 步 @)‖| 完成 ”| 取消 
图 7.7 为 数据 源 选择 驱动 程序 
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3. 设置 数据 源 名 称 及 数据 库 所 在 位 置 

在 “创建 新 数据 源 ” 对 话 框 (如 图 7.7 所 示 ) 中 单 击 “完成 ”按钮 将 出 现 “ODBC 
Microsoft Access 安装 ?对 话 框 (如 图 7.8 所 示 )。 在 该 对 话 杠 中 为 数据 源 起 一 个 你 喜欢 
的 名 字 ,如 company, 这 个 数据 源 就 是 指 茶 个 数据 库 。 最 后 单 击 该 对 话 框 数据库? 选项 组 
中 的 “选择 ”按钮 将 数据 库 设 置 成 第 7.2 节 所 建立 的 employee. mdb 数据 库 即 可 。 


i Fv 
et 


图 7.8 设置 数据 源 的 名 称 和 数据 库 所 在 位 置 


注意 : 如 果 设 置 数据 源 时 ,提示 “非法 路 径 ”, 请 关闭 Microsoft Access 打开 的 
employee. mdb 数据 库 。 


7.3.3 建立 连接 


编写 连接 数据 库 代 码 时 不 会 出 现 数据 库 的 名 称 , 只 会 出 现 数据 源 的 名 字 。 

应 用 程序 和 数据 源 ( 即 数据 源 所 代表 的 数据 库 ) 建 立 连 接 的 步骤 如 下 。 

1. 建立 JDBC-ODBC 桥接 器 

JDBC 使 用 java. lang 包 中 的 Class 类 建立 JDBC-ODBC 桥接 器 。Class 类 通过 调用 
它 的 静态 方法 forName 加 载 sun. jdbc. odbc 包 中 的 JdbcOdbcDriver 类 建立 JDBC-ODBC 
桥接 右 。 建 立 桥接 器 时 可 能 发 生 异 常 , 必 须 捕获 这 个 异常 ,建立 桥接 右 的 代码 是 : 


try { Class.forName("sun. jdbc. odbc.JdbcOdbcDriver" ); 
} 
catch(ClassNotFoundException e){ 
System. out. println(e); 
} 


2. 和 数据 库 建 立 连接 
首先 使 用 java. sql 包 中 的 Connection 类 声明 一 个 对 象 , 然 后 再 使 用 DriverManager 
类 调用 它 的 静态 方法 getConnection 创建 连接 对 象 : 


Connection con = 
DriverManager. getConnection("jdbc:odbc: 数 据 源 名 ","login name", "password"); 


倘 大 没有 为 数据 源 设置 login name 和 password ,那么 连接 形式 是 : 


Connection con = DriverManager. getConnection("jdbc:odbc: 数 据 源 名 字 ",，"",""); 
为 了 能 和 数据 源 company 交换 数据 ,建立 连接 时 应 捕获 SQLException 异常 : 


try{ Connection con = DriverManager. getConnection("jdbc:odbc:company"”, "",""); 
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} 
catch( SOLException e){ 
System. out. println(e); 


} 


应 用 程序 一 旦 和 某 个 数据 源 建 立 连 接 , 就 可 以 通过 SQL 语句 和 该 数据 源 所 指定 的 数 
据 库 中 的 表 交 互信 息 ,例如 查询 .修改 .更 新 表 中 的 记录 。 

下 面 的 例 1 是 一 个 Java 应 用 程序 ,负责 连接 到 数据 源 company 代表 的 数据 库 , 回 数 
据 库 的 person 表 添 加 记录 ,并 查询 person 表 中 的 全 部 记录 ,InsertAndQuery. java 的 运行 
效果 如 图 7. 9 所 示 。 


【 例 1]】 
InsertAndQuery. java 
004, 张 三 , 1995-12-12, 3000.0 
import java. sq1.”; 005, 李 四 , 1996-09-10, 5000.0 
public class InsertAndQuery{ 
public static void main(String args[ ] ){ 图 7.9 添加 与 查询 记录 


Connection con; 
Statement sql; 
ResultSet rs; 
try { Class. forName( "sun. jdbc. odbc. JdbcOdbcDriver" ); 
} 
catch(ClassNotFoundException e){ 
System. out. println("" + e); 
} 
try{ con= DriverManager.getConnection("jdbc:odbc:company”,"",""); 
sql = con. createStatement( ); 
sql. executeUpdate 
("INSERT INTO person VALUES('al004', ' 张 三 ', '1995— 12- 12',3000)"); 
sql. executeUpdate 
("INSERT INTO person VALUES('al1005',' 李 四 ','1996— 09— 10',5000)"); 
rs = sql.executeQuery("SELECT ”FROM person" ); 
while(rs. next())t{ 
String number = rs. getString(1 ); 
String name = rs. getString(2); 
Date birth= rs. getDate( 3); 
double salary = rs. getDouble(4); 
System. out. println(number +"," +name+","+birth+"," + salary); 
} 
con. close( ) ; 
} 
catch( SOLException e){ 
System. out. println(e); 
} 


7.4 XML 至 数据 库 


本 节 讲 解 如 何 将 XML 文件 的 菜 些 标记 中 的 内 容 转化 为 数据 库 中 表 的 一 条 记录 ,其 
主要 步骤 如 下 。 
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1. 获取 标记 中 的 数据 

如 果 要 将 某 些 标记 中 的 内 容 转 化 为 数据 库 中 表 的 一 条 记录 ,那么 可 以 使 用 DOM 解 
析 需 、SAX 解析 需 或 XPath 路 径 表 达 式 获取 这 些 标记 中 的 文本 。 例 如 ,这 些 标 记 的 名 称 
是 “雇员 号 ?“ 姓 名 ”>“ 出 生日 期 > 和 ”薪水 ”, 那 么 获取 的 这 些 标记 中 的 文本 则 分 别 是 : 
“A1006”“ 王 经 路 ”、“1995-11-11” 和 “6789”。 

2. 将 获取 的 数据 作为 一 条 记录 添加 到 数据 库 

连接 数据 库 ,将 获取 的 数据 作为 一 条 记录 添加 到 数据 库 中 ,例如 : 


"INSERT INTO person VALUES(' A1006', ' 王 经 路 ','1995 一 11 一 11',6789)"; 


例 2 中 有 一 个 XML 文件 exmaple7_2. xml 和 一 个 应 用 程序 XMLToDatabae. java ,应 
用 程序 将 XML 文件 中 标记 名 称 为 “雇员 号 “姓名 >”“ 出 生日 期 ”和 ”薪水 ?的 文本 作为 一 
条 记录 添加 到 数据 库 的 person 表 中 ( 见 7.2 节 创 建 的 employee. mdb)。 运 行 例 2 中 的 
Java 程序 后 ,用 Microsoft Access 数据 库 管理 系统 打开 emplovee. mdb 数据 库 中 的 
person 表 , 可 以 看 到 该 表 中 新 添加 的 记录 , 效 末 如 图 7. 10 所 示 。 


| 1995-12-12 
李 四 | 1996-9-10 5000 
于 经 路 1995-11-11 B789 
1995-6-28 


图 7.10 将 XML 标记 中 的 数据 转化 为 记录 


【 例 2】 


example7 2. Xml 


<?xml version= "1.0" encoding = "UTF— 8"?> 
< 雇员 列表 > 
< 雇员 > 
< 雇员 号 > A1006 </ 雇 员 号 > 
< 姓名 > 王 经 路 </ 姓 名 > 
< 出 生日 期 >1995 -11 - 11 </ 出 生日 期 > 
< 薪水 > 6789 </ 薪 水 > 
</ 雇 员 > 
< 雇员 > 
< 雇员 号 > A1007 </ 雇 员 号 > 
< 姓名 > 赵 懂 知 </ 姓 名 > 
< 出 生日 期 >1995 - 06 - 28 </ 出 生日 期 > 
< 薪水 > 5673 </ 薪 水 > 
</ 雇 员 > 
</ 雇 员 列 表 > 


XMLToDatabase. java 


import javax. xml.xpath.™ ; 
import org. xml. sax. ”; 
import org.w3c.dom. *，; 
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import Java. sql.*; 
public class XMLToDatabaset{ 
public static void main(String args[ ] ){ 
Connection con = null; 
Statement sql = null; 
ResultSet rs = null; 
try { Class. forName( "sun. jdbc. odbc. JdbcOdbcDriver" ); 
} 
catch(Exception e){ 
System. out. println("" + e); 
} 
try{ con = DriverManager. getConnection("jdbc:odbc:company","",""); 
sql = con. CreateStatement() ; 
XPathFactory xPathFactory = XPathFactory. newInstance() ; 
XPath xPath = xPathFactory. newXPath( ) ; 
InputSource source = new InputSource( "example9 2.xml" ); 
String path= "/ 雇 员 列 表 / 雇 员 ":; 
NodeList nodeList = (NodeList ) xPath. evaluate ( path, source, XPathConstants. 
NODESET ) ; 
int size = nodeList. getLength!( ); 
for(int i=0;i<size;i+ + ){ 
int m= i+1; 
path="/ 雇 员 列 表 / 雇 员 [" +m+ "]/* /text()"; 
nodeList = (NodeList)xPath. evaluate( path, source, XPathConstants. NODESET) ; 
int length = nodeList. getLength( ); 
String [ ] a= new Stringl length|; 
for(int k= 0;k<length;k+ + ){ 
Node node = nodeList. item(k); 
a[k] = node. getTextContent( ) .trim( ); 
} 
String insertData = 
”INSERT INTO person VALUES('"+a[0]+”， "+a[1l1]+”， "+a[2]+”， "+a[3] 
+")"; 
sql. executeUpdate( insertData) ; 
} 
con. close( ) ; 
} 
catch(Exception exp){ 
System. out. println( exp); 


7.5 数据库 至 XML 


一 个 应 用 系统 可 能 需要 将 数据 库 表 中 的 某 些 记录 转化 为 一 个 XML 文件 ,以 便 与 其 
他 系统 交互 数据 ,发 挥 XML 文件 在 数据 交换 上 的 优势 ,其 主要 步骤 如 下 。 
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1. 查询 记录 
连接 数据 库 查 询 记 录 ( 参 见 7.2 节 的 employee. mdb) ,例如 ,查询 到 记录 : 


('al005',' 李 四 ','1996 一 09 一 10',5000) 


2. 将 记录 中 的 字段 值 作为 标记 的 内 容 

在 内 存 中 创建 一 个 Document 对 象 , 在 其 中 建立 名 称 分 别 为 “雇员 号 ”“ 姓 名”、“ 出 生 
日 期 > 和 ”薪水 ”的 节点 ,并 将 步骤 1 查询 到 的 记录 中 各 个 字段 ( 列 ) 的 值 分 别 作 为 “雇员 
号 ”“ 姓 名 ”“ 出 生日 期 ?和 “薪水 ”节点 中 的 文本 内 容 , 然 后 使 用 DOM 生成 一 个 XML 文 
件 ( 参 见 第 4 草 的 4.10 节 )。 

下 面 例 3 中 的 应 用 程序 DatabaseToXML 负责 创建 一 个 XML 文件 newXML. xml， 
并 将 数据 库 中 的 全 部 记录 分 别 作 为 XML 文件 newXML. xml 中 标记 名 称 为 “雇员 号 ”、 
“姓名 >”“ 出 生日 期 > 和 ”薪水 ”中 的 文本 。 在 运行 例 3 中 的 Java 程序 之 后 ,用 浏览 器 打 开 
newXML. xml 的 效果 如 图 7. 11 所 示 。 


<?xml version="1.0" encoding="UTF-8" standalone="no" ?> 
- < 雇员 列表 > 
- < 雇员 > 
< 雇员 号 >a1004</ 雇 员 号 > 
< 姓名 > 张 三 </ 姓 名 > 
< 出 生日 期 >1995-12-12</ 出 生日 期 > 
< 新 水 >3000.0<, 攻 水 > 
< 雇员 > 
-< 雇员 > 
< 雇员 号 >al005</ 雇 员 号 > 
< 姓名 > 好 四 < /姓名 > 
< 出 生日 期 >1996-09-10</ 出 生日 期 > 
< 薪水 >5000.0<; 某 水 > 
< 雇员 > 
-< 雇员 > 
< 雇员 号 >A1006</ 雇 员 号 > 
< 姓名 > 王 经 路 </ 姓 名 > 
< 出 生日 期 >1995-11-11</ 出 生日 期 > 
< 薪水 >6789.0<,/ 守 水 > 
< 雇员 > 
- < 雇员 > 
< 雇员 号 >A1007</ 雇 员 号 > 
< 姓名 > 起 悟 知 </ 姓 名 > 
< 出 生日 期 >1995-06-28</ 出 生日 期 > 
< 薪水 >5673.0<;/ 某 水 > 
< 雇员 > 
</ 雇 员 列表 > 


图 7.11 将 数据 库 中 的 表 转 化 为 XML 文件 


【 例 3】 
DatabaseToXML. java 


import JavVax. xm] .transform.”; 

import javax. xm] .transform. Stream.”; 
import javax. xml.transform. dom.”; 
import org. w3c. dom. 

import JjJavax. xml. parsers.” 

import java. 10.“ 
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import Java. sq1.” ; 
public class DatabaseToXML{ 
public static void main(String args[ ] ){ 
Connection con; 
Statement sql; 
ResultSet rs; 
String [] number = {""}; 
String [] name= {""}; 
String [] date= {""}; 
String [] salary= {""}; 
try { Class. forName("sun. jdbc. odbc.JdbcOdbcDriver" ); 
} 
catch(ClassNotFoundException e){ 
System. out. println("" + e); 
} 
try{ con = DriverManager. getConnection( "jdbc:odbc :company","",""); 
sql = con. createStatement 
(ResultSet. TYPE SCROLL SENSITIVE,ResultSet.CONCUR READ ONLY); 
rs = sql.executeQuery("SELECT * FROM person" ); 
rs. last(); 
int recordAmount = rs. getRow( ); 
number = new String[ recordAmount |]; 
name = new String[ recordAmount |]; 
date = new String[ recordAmount |]; 
salary = new String[ recordAmount ]; 
int k= 0; 
rs. beforeFirst( ); 
while(rs.next( ) ){ 
number[k] = rs.getString(1); 
name[k|] = rs.getString(2); 
date[k] = rs. getDate(3).toString(); 
salary[k] = String. valueOf(rs. getDouble( 4)); 
k++; 
} 
con. close( ) ; 
} 
catch( SOLException e){ 
System. out. println(e); 
} 
try{ DocumentBuilderFactory factory = 
DocumentBuilderFactory. newInstance( ) ; 
DocumentBuilder domPaser = factory. newDocumentBuilder( ) ; 
Document document = domPaser. newDocument ( ) ; 
document. setXmlVersion("1.0"); 
Element root = document. createElement(" 雇 员 列 表 "); 
document. appendChild( root); 
for(int k= 0;k<name.length;k ++ ){ 
Node employee = document. createElement ("雇员 "); 
root. appendChild( employee); 
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Node xuehao = document. createElement(" 座 员 号 "); 
xuehao. appendChild( document. createTextNode(number[k |)); 
Node xingming = document. createElement ("姓名 "); 
xingming.appendChild( document. createTextNode(name[k |)); 
Node chusheng = document. createElement ("出 生日 期 "); 
chusheng. appendChild( document. createTextNode( date[k |)); 
Node pay = document. createElement( "薪水 "); 
pay. appendChild( document. createTextNode( salary[ k|)); 
employee. appendChild(xuehao) ; 
employee. appendChild(xingming ) ; 
employee. appendChild(chusheng ) ; 
employee. appendChild( pay); 

} 

TransformerFactory transFactory = TransformerFactory. newInstance( ); 

Transformer transformer = transFactory. newTransformer( ); 

DOMSource domSource = new DOMSource( document ); 

File f= new File("newXML. xml" ); 

File0OutputStream out = new FileOQutputStream(f); 

StreamResult xmlResult = new StreamResult (out); 

transformer. transform( domSource, xmlResult); 

out. close( ) ; 

} 
catch(Exception e){ 
System. out. println(e); 


站 题 7 


1. 参考 例 2, 将 XML 文件 中 的 某 些 标记 的 内 容 作 为 一 条 记录 添加 到 数据 库 中 。 
2. 参考 例 3, 将 employee 数据 库 person 表 中 的 前 3 条 记录 转化 为 一 个 XML 文件 。 


XML 与 CSS 


主要 内 容 

。 XML 关联 CSS 
标记 与 样式 表 

。 设置 文本 的 显示 方式 
。 字体 

。 文本 样式 

。 边框 

。 颜色 和 背景 

。 显示 图 像 

。 设置 鼠标 的 形状 


XML 关心 的 是 数据 的 结构 ,并 能 很 好 方便 地 描述 数据 ,但 它 不 提供 数据 的 显示 功 
能 。 因 此 ,浏览 器 不 能 直接 显示 XML 文件 中 标记 的 文本 内 容 , 如 果 想 让 浏览 器 显示 
XML 文件 中 标记 的 文本 内 容 , 必 须 以 某 种 方式 告诉 浏览 右 如 何 显 示 。W3C 为 XML 数 
据 显 示 发 布 了 两 个 规范 : CSS( 层 释 样 式 表 ) 和 XSL( 可 扩展 样式 语言 )。 当 XML 文件 和 
CSS 文件 或 XSL 文件 相关 联 后 ,浏览 如 将 按照 CSS 文 ge 
件 或 XSL 文件 给 出 的 显示 方式 来 显示 XML 文件 中 标 
记 的 文本 内 容 ( 如 图 8.1 所 示 )。 图 8.1 使 XML 和 CSS 相关 联 
XSL 不 仅 能 帮助 XML 显示 数据 ,而 且 本 身 还 有 许 
多 应 用 领域 ,对 XSL 的 讲解 已 超出 本 书 范 围 , 本 章 重 点 讲述 如 何 使 用 CSS 显示 XML 标 
记 中 的 文本 内 容 。CSS 能 为 XML 提供 数据 显示 的 外 观 , 且 语法 简单 ,便于 学 习 使 用 ,在 
某 些 应 用 中 ,使 用 CSS 可 以 为 XML 提供 很 好 的 数据 显示 外 观 。 


8.1 人 初 识 CSS 


在 CSS 中 ,最 重要 的 概念 就 是 样 式 表 。 样 式 表 是 一 组 规则 ,通过 这 组 规则 告诉 浏 贤 
名 用 什么 样式 来 显示 文本 ,例如 ,告诉 浏览 副 使 用 什么 样 的 字体 、 颜 色 和 页 边 距 来 显示 文 
本 。 一 个 CSS 文件 就 是 由 奋 干 个 样式 表 构 成 的 文本 文件 ,因此 编写 CSS 文件 的 关键 就 是 
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样式 表 的 格式 如 下 : 

样式 表 名 称 

{ 

样式 规则 

} 

编写 CSS 文件 时 ,样式 表 中 的 “样式 表 名 称 ”是 标记 的 名 称 ( 有 关 细 节 见 后 面 的 
8.3.1 小 节 )。 样 式 表 中 的 “样式 规则 ”是 若干 个 用 分 号 分 隔 的 “属性 名 : 属性 值 ”, 例 如 : 

{ display:block;font— size:12pt;font— weight:bold; 

} 
就 是 CSS 中 的 一 个 样式 表 , 该 样式 表 用 来 显示 XML 文件 中 name 标记 包含 的 文本 内 容 。 
其 中 的 “display:block; ”告知 浏览 吉 将 标记 ”一 name 二 … 一 /name 二 ”中 的 文本 内 容 显示 
在 一 个 " 块 区 域 ?;“font-size:12pt;” 能 使 得 所 显示 的 文本 的 字体 的 大 小 是 12 镑 (小 4 号 
字 );“font-weight:bold” 的 作用 是 使 文本 用 粗 体 字 显示 。 

一 个 层 著 样式 表 (CSS) 就 是 由 硅 干 个 样式 表 构 成 的 文本 文件 ,该 文本 文件 可 以 使 用 
“ANSI” 或 “UTF-8” 编 码 来 保存 ,文件 的 扩展 名 是 “. css”。 

注意 : 样式 表 定 义 中 的 “样式 表 名 称 ” 不 要 含有 非 ASCII 字符 ,目前 的 大 部 分 浏览 器 
不 支持 这 样 的 样式 表 。 


8.2 XML 关联 CSS 


为 了 让 XML 使 用 层 释 样式 表 ,XMEL 文件 必须 使 用 操作 指令 : 
<?xml 一 stylesheet href = "样式 表 的 URI" type = "text/css" ?> 


将 当前 XML 文件 关联 到 茶 个 层 琶 样式 表 。 操 作 指令 中 href 属性 指定 的 属性 值 中 的 URI 
如 条 是 一 个 文件 的 名 字 ,该 文件 必须 和 XML 文件 在 同一 目录 中 ,例如 : 


<?xml — stylesheet href = "show. css" type = "text/css" ?> 


如 采 操 作 指 令 中 href 属性 指定 的 属性 值 中 的 URI 是 一 个 URL ,该 URL 必须 是 有 效 
的 (可 访问 的 ), 例 如 : 


<?xml — stylesheet href = "http://www. yahoo. com/ show. css" type= "text/css" ?> 


当 XML 文件 和 一 个 CSS 文件 相关 联 后 ,如 果 用 浏览 器 打开 XML 文件 (XML 必须 
是 规范 的 ) ,浏览 器 不 再 显示 XML 源 文件 ,而 是 使 用 CSS 文件 中 的 样式 表 显 示 XML 文 
件 中 标记 包含 的 文本 数据 。 

在 XML 中 ,操作 指令 写 在 XML 文件 根 标记 之 前 ,用 


<? 操 作 指 令 的 名 字 操作 内 容 的 文本 描述 
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开始 ,用 
?> 
结束 的 指令 。 例 如 ,操作 指令 : 
<?xml 一 stylesheet href = "样式 表 的 URI" type = "text/css" ?> 
将 一 个 XML 文件 与 CSS 样式 表 相 关联 。 
下 面 的 例 1 中 有 一 个 XML 文件 example8_1. xml 和 一 个 CSS 文件 oneCSS. css， 
example8_1. xml 和 oneCSS. css 相关 联 , 并 保存 在 相同 的 目录 中 。 用 浏览 器 打开 


example8 1. xml 的 效果 如 图 8. 2 所 示 。 
【 例 1】 


oneCSS. css 


C:\pOxml\example8_1.xml 
name 
{ display:block;font— size:18pt;font— weight:bold 李 小 林 办 1998 年 12 月 22 日 
金 锦 巾 女 leoe 年 os 月 to 日 


{ display:line;font— size:12pt;font— Style: italic 
} 

birthday 

{ display:line;font— size:10pt;font ~ weight:bold 
} 


图 8.2 打开 和 CSS 关 联 的 XML 文件 


example8_1. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "oneCSS. css" type = "text/css" ?> 
< student > 
<name> 李 小 林 
<sex> 男 </sex> 
<birthday> 1998 年 12 月 22 日 </birthday > 
</name > 
<name> 金 锦 巾 
<sex> 女 </sex> 
<birthday> 1999 年 08 月 10 日 </birthday> 
</name > 
</student > 


8.3 标记 与 样式 表 


CSS 中 的 样式 表 负 责 给 出 XML 文件 中 标记 包含 的 文本 数据 的 显示 外 观 , 为 此 ,样式 
表 的 名 称 必须 和 XML 文件 中 标记 的 名 称 建立 某 种 联系 。 本 节 简 要 介绍 如 何 为 样式 表 命 
名 以 及 CSS 的 显示 规则 ,本 节 之 后 的 内 容 将 详细 讲解 如 何 编写 各 类 样式 表 。 


8.3.1 标记 的 名 字 与 样式 表 的 名 称 


对 于 XML 文件 ,样式 表 中 的 “样式 表 名 称 ” 可 以 是 标记 的 名 称 , 也 可 以 是 标记 的 名 称 
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与 该 标记 的 ID 属性 值 用 " # ?连接 起 来 的 字符 串 。 

当 XML 的 许多 标记 具有 相同 的 名 字 ,并 准备 使 用 不 同 的 外 观 来 显示 它们 的 内 容 时 ， 
“样式 表 名 称 ” 使 用 标记 的 名 称 与 该 标记 的 ID 属性 值 用 “# ”连接 起 来 的 字符 串 就 显得 很 
方便 ,因为 可 以 为 那些 名 字 相 同 的 标记 指定 不 同 的 ID 属性 值 。 例 如 ,假设 XML 文件 中 
有 两 个 标记 的 名 称 都 是 time, XML 文件 可 以 为 这 两 个 名 字 相 同 的 time 标记 指定 不 同 的 
ID 属性 值 : 


<time ID="a01"> 2010— 12 - 12 </time> 
<time ID="a02"> 2010— 10- 10 </time> 


然后 让 对 应 的 CSS 文件 中 含有 如 下 的 两 个 样式 表 : 


time# a001 

{ display:block;font— size:19pt;font— weight:bold; 
} 

time# a002 

{ display:line;font— size:16pt;font — weight:bold; 
} 


如 果 有 多 个 标记 的 内 容 需 要 用 完全 一 样 的 外 观 来 显示 ,“ 样 式 表 名 称 ” 也 可 以 是 这 些 
标记 的 名 称 用 逗号 分 隔 的 字符 串 。 例 如 ,XML 文件 中 名 称 是 name、sex 和 birthday 的 标 
记 想 用 同样 的 外 观 显示 各 目 内 容 中 的 文本 数据 ,那么 对 应 的 CSS 文件 中 ,就 可 以 有 如 下 
的 样式 表 : 


name, sex, birthday 
{ display:block;font— size:36pt;font— weight:bold; 
} 


8.3.2 CSS 的 显示 规则 


当 用 浏览 器 打开 XML 文件 时 ,浏览 器 将 按照 标记 在 XML 文件 中 出 现 的 顺序 ,并 用 
该 标记 在 CSS 中 对 应 的 样式 表 显 示 该 标记 包含 的 文本 数据 ,如 果 标 记 在 CSS 中 没有 对 应 
的 样式 表 , 浏 览 器 将 使 用 默认 的 显示 规则 显示 该 标记 中 的 文本 数据 。 

下 面 的 例 2 中 的 XML 文件 example8_2. xml 和 CSS 样式 表 twoCSS. css 相关 联 。 

【 例 2】 


twoCSS. css 


name 

{ display:block;font— size:18pt;font— weight:bold 
} 

price 

{ display:line;font— size:16pt;font— style: italic 
} 

madeTime 

{ display:line;font— size:9pt;font— weight:bold 

} 
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example8_2. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "twoCSS. css" type = "text/css" ?> 
< goods > 商品 列表 : 
< name> 
诺基亚 手机 
<price> 1907 元 /部 </price> 
<madeTime > 2011.09.28 </madeTime > 
</name > 
<name> 
苹果 IPad 
<price> 5668 元 /人 台 </price> 
<madeTime > 2011.10.10 </madeTime > 


</name > 

</goods > 

例 2 中 的 XML 文件 使 用 twoCSS. css 层 区 样式 表 显 示 标 记 包 含 的 文本 数据 ,那么 品 

示 文 本 数据 的 顺序 是 : 

。 显示 根 标记 包含 的 文本 “商品 列表 ” ,使 用 默认 规则 (因为 twoCSS. css 中 没有 对 应 
根 标记 的 样式 表 ) 。 

。 显示 第 一 个 name 标记 包含 的 文本 数据 “诺基亚 手机 ”, 所 用 样式 表 是 twoCSS. css 
中 名 称 是 name 的 样式 表 。 


。 显示 第 一 个 name 标记 的 price 和 madeTime 子 标记 包含 的 文本 数据 “1907 元 / 
部 ”和 “2010. 09. 28”, 所 用 样式 表 分 别 是 twoCSS. css 中 名 称 是 price 和 
madeTime 的 样式 表 。 

。 显示 第 二 个 name 标记 包含 的 文本 数据 “苹果 IPad”, 所 用 样式 表 是 twoCSS. css 
中 名 称 是 name 的 样式 表 。 

。 显示 第 二 个 name 标记 的 price 和 madeTime 子 标记 包含 的 文本 数据 “5668 元 / 
台 ” 和 “2010. 10. 10”, 所 用 样式 表 分 别 是 twoCSS. css 中 名 称 是 price 和 
madeTime 的 样式 表 。 

用 浏览 毅 打 开 example8_2. xml 的 效果 如 图 8. 3 所 示 。 


商品 列表 : 


诺基亚 手机 了 907 元 / 遂 32011090928 
苹果 IPad 5668 元 /全 20tlonn 


图 8.3 CSS 按 标记 顺序 显示 数据 


8.4 数据 结构 与 显示 相 分离 


在 第 1 章 曾 介绍 了 HTML 与 XML 的 不 同 。HTML 是 设计 数据 显示 外 观 的 语言 ， 
它 的 核心 是 把 数据 和 数据 的 显示 外 观 捆绑 在 一 起 , 即 HTML 中 的 标记 的 出 发 点 不 是 为 
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了 体现 数据 的 含义 ,而 是 体现 数据 的 显示 格式 ,整个 HTML 文件 的 目的 不 是 为 了 组 织 数 
据 的 结构 ,而 是 为 了 组 织 数 据 的 显示 外 观 ; XML 的 核心 是 描述 数据 的 组 织 结构 ,其 标记 
名 称 是 对 标记 所 包含 的 数据 内 容 的 抽象 ,而 不 是 数据 的 显示 格式 ,XML 文件 通过 使 用 知 
干 个 标记 来 表示 数据 的 组 织 结构 ,通过 和 CSS 或 XSL 相关 联 来 显示 标记 中 的 文本 数据 ， 
从 而 有 效 地 分 离 了 数据 的 组 织 结构 和 显示 外 观 。 

以 下 通过 一 个 简单 的 例子 来 体会 XML 通过 和 CSS 关联 来 有 效 地 分 离 数 据 的 组 织 结 
构 和 显示 外 观 。 在 下 面 的 例 3 中 ,XML 文件 example8_3. xml 和 threeCSS. css 相关 联 。 
如 果 在 example8_3. xml 中 再 增加 知 干 个 shop 标记 , 却 不 修改 threeCSS. css 文件 ,新 增 
的 shop 标记 包含 的 文本 内 容 就 可 以 被 浏览 副 显 示 ; 男 一 方面 ,如 果 改 了 threeCSS. css 中 
的 样式 表 , 不 修改 XML 文件 ,浏览 希 就 会 用 新 的 样式 表 显 示 标 记 包 含 的 文本 数据 。 用 浏 
览 堪 打开 example8 3. xml 的 效果 如 图 8.4 所 示 。 


地 址 (D) C:WOxmlexample8_3.xml 


dad 开门 时 间 : pre ee eds 18:30 


8.4 使 用 CSS 显示 XML 中 的 数据 


【 例 3】 


threeCSS. css 


shop# a001 

{ display:block;font— size:18pt;font— weight:bold; color:red; 

} 

shop 

{ display:block;font— size:18pt;font— weight:bold; 

} 

startTime 

{ display:line;font— size:15pt;font ~— weight:bold;color:rgb(100,129,70); 
} 

endTime 

{ display:line;font— size:15pt;font ~ weight:bold;color:rgb(0,129,170); 
} 


example8 3. xml 


<?xml version= "1.0" encoding= "UTF— 8" ?> 
<?xml — stylesheet href = "threeCSS. css" type = "text/css" ?> 
< businessTime > 
< Shop ID = "a001"> 
<name > 体育 商城 </name > 
< startTime> 开 门 时 间 : 08:30 </startTime> 
<endTime > 关门 时 间 : 18:30 </endTime > 
</shop > 
< Shop > 
<name > 美音 琴行 </name > 
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< startTime> 开 门 时 间 : 07:30 </startTime> 
<endTime > 关门 时 间 : 22:30 </endTime > 
</shop > 
</businessTime > 


注意 : 浏览 器 把 “英文 输入 法 ”状态 编辑 输入 的 连续 空格 按 一 个 空格 显示 ,如 果 准 备 
显示 标记 包含 的 全 部 空格 ,在 编辑 XML 文件 时 , 需 将 输入 法 切换 成 “中 文 输入 法 ”, 并 选 
择 “ 全 角 状 态 ” 来 编辑 空格 字符 。 


8.5 设置 文本 的 显示 方式 
样式 表 中 通过 指定 属性 display 的 值 来 设置 文本 的 显示 方式 。 
8.5.1 块 方式 


在 样式 表 中 的 样式 规则 中 通过 将 属性 display 的 值 指定 为 block ,使 得 文本 在 浏览 器 
的 一 个 块 区 域 中 显示 。 例 如 : 

{ display:block; 

} 

上 述 name 样式 表 使 用 块 区 域 显示 文本 , 块 的 位 置 默 认为 靠 左 对 齐 , 块 的 大 小 依赖 于 
需要 显示 的 文本 中 字符 的 数量 .字符 的 大 小 以 及 当前 浏览 硕 显 示 区 域 的 大 小 。 

可 以 通过 进一步 设置 width 和 height 属性 的 值 来 准确 地 设置 块 区 域 的 宽度 和 高 度 ， 
例如 : 

{ display:block;width = 280;height = 180 

} 

在 8.2.2 小 节 中 讲述 了 CSS 显示 标记 包含 的 文本 内 容 的 顺序 是 按照 标记 在 XML 文 
件 中 出 现 的 顺序 ,并 用 该 标记 在 CSS 中 对 应 的 样式 表 显 示 该 标记 包含 的 文本 数据 ,其 特 
点 如 下 。 

1. 同 级 别 标记 

如 有 果 有 硅 干 同 级 别 的 标记 所 对 应 的 样式 表 都 是 使 用 块 区 域 显示 文本 ,那么 这 些 块 区 
域 将 按照 标记 的 先后 顺序 靠 左 对 齐 。 

2. 子 标记 

如 果 样 式 表 指定 某 个 标记 的 显示 方式 是 block, 而 另外 一 个 样式 表 为 当前 标记 的 子 标 
记 指 定 的 显示 方式 也 是 block, 那 么 为 子 标 记 指 定 的 块 区 域 将 被 包含 在 为 父 标 记 指 定 的 块 
区 域 中 。 

可 以 通过 设置 position 属性 的 值 为 absolution 改变 块 区 域 默 认 靠 左 对 齐 的 方式 ,但 
必须 要 同时 设置 left、top、width 和 height 属性 的 值 ,以 便 准 确 地 设置 块 区 域 的 位 置 和 大 
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小 ,下 面 的 样式 表 设 置 了 position left top、width 和 height 属性 的 值 : 


name 

{ display:block; 
position:absolution; 
left = 100; top = 120; 
width = 200; height = 120; 

} 


在 下 面 的 例 4 中 ,三 个 标记 以 及 子 标记 的 内 容 的 显示 方式 都 是 块 方式 ,浏览 器 显示 
example8_4. xml 的 效果 如 图 8.5 所 示 。 


0 ee 
第 二 教学 楼 的 2101 教 室 。 我 是 第 二 教学 楼 的 2201 教 室 。 


综合 办 公 楼 .设置 了 谁 
确 位 置 。 


图 8.5 样式 表 使 用 块 区 域 显示 文本 


【 例 4】 
fourCSS. css 


name 
{ display:block; 
background — color: cyan; 
} 
classRoom 
{ display:bolck; 
background — color: rgb(200,210, 220); 
} 
name# Special 
{ display:block; 
position:absolution; 
width= 150; 
height = 60; 
left = 180; 
top = 95; 
background — color: pink 
} 


example8 4. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "fourCSS. css" type = "text/css" ?> 
<house> 
<name> 
第 一 教学 楼 ( 靠 左 对 齐 ). 
<classRoom> 我 是 第 一 教学 楼 的 1101 教室 .</classRoom > 
< classRoom> 我 是 第 一 教学 楼 的 1201 教室 .</classRoom > 
</name> 
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< name > 
第 二 教学 楼 ( 徘 左 对 齐 ). 
<classRoom> 我 是 第 二 教学 楼 的 2101 教室 .</classRoom> 
<classRoom> 我 是 第 二 教学 楼 的 2201 教室 .</classRoom> 
</name > 
<name ID = "special"> 
综合 办 公 楼 ,设置 了 准确 位 置 . 
</name> 
</house > 


8.5.2 行 方式 


在 样式 表 中 的 样式 规则 中 通过 将 属性 display 的 值 指定 为 line, 使 得 文本 以 行 的 方式 
在 浏览 各 中 显示 。 例 如 : 


{ display:line; 

} 

在 第 8.2.2 小 节 中 讲述 了 标记 中 内 容 的 显示 顺序 是 按照 标记 在 XML 文件 中 出 现 的 
顺序 ,并 用 该 标记 在 CSS 中 对 应 的 样式 表 显 示 该 标记 中 的 文本 数据 ,其 特点 如 下 。 

1. 同 级 别 标记 

如 果 有 奉 干 同 级 别 的 标记 所 对 应 的 样式 表 都 是 使 用 行 方式 来 显示 文本 ,那么 这 些 行 
将 按照 标记 的 先后 顺序 首尾 相 接 。 

2. 子 标记 

如 果 样 式 表 为 某 个 标记 指定 的 显示 方式 是 block ,而 另外 一 个 样式 表 为 当前 标记 的 子 
标记 指定 的 显示 方式 是 lne, 那 么 为 子 标记 指定 的 行将 被 包含 在 为 父 标 记 指 定 的 块 区 
域 中 。 

可 以 通过 设置 position 属性 的 值 为 absolution 改变 某 行 默认 地 按 先 后 顺序 尾随 在 另 
一 行 之 后 的 方式 ,但 必须 要 同时 设置 left top 属性 的 值 , 以 便 准 确 地 设置 行 的 位 置 , 下 面 
的 样式 表 设 置 了 position left 和 top 属性 的 值 : 


name 
{ display:line; 
position:absolution; 
left = 100; top = 120; 
} 
在 下 面 的 例 5 中 ,student 标记 的 显示 方式 是 block, 它 的 两 个 子 标记 的 显示 方式 是 
line。 浏 览 堪 显示 example8_5. xml 的 效果 如 图 8.6 所 示 。 


je 二 
fiveCSS. css 


student 图 8.6 块 中 的 行 方 式 
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{ display :block; 
font— size:18pt; 
background — color: cyan; 

} 

sex 

{ display:line; 

font 一 size:12pt; 
color: red; 

} 

name 

{ display:line; 

font — size:16pt; 
color: green; 

} 

birth 

{ display:line; 

font — size:10pt; 

} 


example8_5. xml 


<?xml version= "1.0” encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "fiveCSS.css" type= "text/css" ?> 
<people> 
< student > 
<name > 张 三 </name > 
< Sex> 男 </sex> 
<birth> 1996 一 12 一 12 </birth> 
</ student > 
< student > 
<name> 赵 花 </name > 
<sex> 女 </sex> 
<birth> 1998--11-11 </birth> 
</ student > 
</people> 


8.5.3 按 列表 方式 


在 样式 表 的 样式 规则 中 通过 将 属性 display 的 值 指定 为 list-item, 使 得 文本 按 列表 方 
式 在 浏览 需 中 显示 。 例 如 : 

{ dislpaly:list— item; 

} 

在 8.2.2 小 节 中 我 们 讲述 了 标记 中 内 容 的 显示 顺序 是 按照 标记 在 XML 文件 中 出 现 
的 顺序 ,并 用 该 标记 在 CSS 中 对 应 的 样式 表 显 示 该 标记 中 的 文本 数据 ,其 特点 如 下 。 
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1. 同 级 别 标记 

如 果 有 奋 干 同 级 别 的 标记 对 应 的 样式 表 都 使 用 列表 来 显示 文本 ,那么 这 些 列表 将 按 
照 标记 的 先后 独行 显示 ,而且 列表 的 项 目 符号 会 按 先 后 顺序 递增 。 

2. 子 标记 

如 条 样式 表 为 某 个 标记 指定 的 显示 方式 是 block ,而 另外 一 个 样式 表 为 当前 标记 的 子 
标记 指定 的 显示 方式 是 list-item, 那 么 为 子 标记 指定 的 列表 将 被 包含 在 为 父 标 记 指 定 的 
块 区 域 中 。 如 果 样 式 表 为 某 个 标记 指定 的 显示 方式 是 list-item, 而 男 外 一 个 样式 表 为 当 
前 标记 的 子 标 记 指 定 的 显示 方式 也 是 list-item, 那 么 为 子 标 记 指 定 的 列表 将 成 为 为 父 标 
记 指 定 的 列表 的 子 列表 。 

和 list-item 属性 有 关 的 属性 是 list-style-type, 也 就 说 list-style-type 属性 可 以 配合 
list-item 属性 一 起 使 用 ,通过 设置 list-style-type 属性 的 值 可 以 更 改 列表 序号 的 外 观 , 否 
则 ,列表 序号 将 采用 默认 外 观 圆 盘 。 

list-style-type 属性 可 取 如 下 的 值 : 


disc,circle, square decimal, lower — roman, upper — roman, lower 一 alpha, upper ~- alpha, none 
例如 : 
list— style 一 type: lower — roman 


将 列表 项 目 符号 的 外 观 指 定 为 小 写 罗 马 数字 Gi,ii,iii…)。 以 下 是 各 个 属性 值 的 具体 


效果 : 
。 disc ” 圆 航 
。 circle 圆圈 
。 square 方块 


。 decimal 十 进 制 数 

。 lower-roman 小 写 罗 马 数 字 

。 upper-roman ”大写 罗马 数字 

。 lower-alpha 小写 莫 文字 母 

。 upper-alpha 写 英 文字 母 

在 下 面 的 例 6 中 ,标记 chapter 和 section 的 内 容 的 显示 方式 都 是 列表 方式 ,其 中 
section 是 chapter 的 子 标记 。 浏 览 器 显示 example8 6. xml 的 效果 如 图 8.7 所 示 。 


【 例 6】 
sixCSS. cess 
book 
| 1。、XML 简 介 

{ display:block; re 

background — color: rgb(229, 227, 226); I 器 
} 

2， 规 范 的 XML 文件 

chapter 1 XML 声明 
{ display:list— item; I XML 中 的 标记 


list— style— type:decimal; 
margin— left:25; 图 8.7 使 用 列表 显示 数据 
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font— size:12pt;color:blue; 
} 
section 
{ display:list— item; 
list— style— type:upper — roman; 
margin— left:35; 
font— size:10pt;color:black; 


} 


example8_6. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "sixCSS.css" type = "text/css" ?> 
< book > 
< chapter > XML 简介 
< section> XML 与 HTML 的 区 别 </section > 
< section > XML 解析 器 </ section > 
</chapter > 
< chapter > 规范 的 XML 文件 
< section > XML 声明 </section > 
< section > XML 中 的 标记 </section > 
</chapter > 
</book > 


8.5.4 不 显示 


在 样式 表 的 样式 规则 中 通过 将 属性 display 的 值 指定 为 none, 以 达到 不 显示 标记 中 
的 文本 的 目的 。 例 如 : 


{ display:none; 


} 
对 应 name 样式 表 的 标记 将 不 显示 标记 中 的 文本 。 


8.6 了 字 体 


样式 表 中 的 "样式 规则 ?是 知 干 个 用 分 号 分 隔 的 “属性 名 : 属性 值 ” ,样式 表 中 与 字体 
有 关 的 属性 包括 : 

font— family, font — style, font ~ variant, font 一 weight, font ~— size 

以 下 分 别 叙 述 上 述 属性 的 取 值 情况 。 

1. font-family 属性 

font-family 属性 的 值 是 浏览 锅 支 持 的 字体 名 称 ,该 属性 的 默认 值 是 浏览 硕 确 定 的 默 
认 字 体 名 称 ,例如 "宋体 ”。 如 果 名 称 中 有 空格 ,属性 值 必须 用 双 引 号 括 起 来 ,例如 : 
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font 一 familYy:Arial; 
font 一 familVy: 宋 体 ; 
font - family:"Time New Roman"; 


2. font-style 属性 

font-style 属性 的 值 指 定 字 体 是 否 使 用 斜体 ,默认 值 是 normal。 该 属性 值 可 以 是 
normal 或 italic, 例 如 : 

font 一 style:italic 

font— Style :normal 

3。font-variant 属性 

font-variant 属性 的 值 用 来 指定 是 否 使 用 小 体 的 大 写字 母 来 显示 文字 ,默认 值 是 
normal。 该 属性 能 取 的 属性 值 有 normal( 正 常 大 写字 母 ) 和 small-caps (小 体 大 写字 母 )， 
例如 : 


font— variant: small 一 caps 


4. font-weight 属性 
font-weight 属性 的 值 用 来 设置 字体 线条 的 粗细 ,默认 值 是 normal。 该 属性 能 取 的 属 
性 值 如 下 : 


normal, bold, bolder, lighter, 100, 200, 300, 400,500, 600,700,800,900 


例如 : 


font ~— weight: bold 
font— weight: 600 


属性 值 中 的 normal 相当 于 400,bold 相当 于 700,bolder 相当 于 500,1lighter 相当 
300. 

5. font-size 属性 

font-size 属性 的 值 用 来 设置 字体 的 大 小 ,单位 为 pt( 镑 )。 例 如 : 


font— size:12pt 


注意 : 如 果子 标记 的 样式 表 中 不 指定 文本 的 字体 属性 ,就 会 使 用 父 标 记 的 样式 表 中 
的 字体 属性 及 属性 值 。 

下 面 的 例 7 中 ,CSS 文件 中 的 样式 表 使 用 了 和 字体 有 关 的 属性 。 用 浏览 右 打 开 
example8_7. xml 的 效果 如 图 8.8 所 示 。 

【 例 7】 EE 


1， 豆 攻 杖 
e 1278 元 / 台 
sevenCSS. css 。 汪 产 日 期 ，2009 年 10 朋 
goods 2， 苞 牧 
{ display:block; 。 6572 元 / 台 


e 生产 日 期 ，200% 年 12 月 
font - family: 楷 体 GB2312 ; 


font— style:italic; 
font ~— weight:600; 8.8 设置 字体 有 关 的 属性 值 
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background — color: rgb(229, 227, 226); 


name 
{ display:list— item; 
list— style— type:decimal; 
margin— left:25; 
font— size:12pt;color:blue; 
font 一 family: 黑 体 ; 
font — weight:300; 
} 
price, madeTime 
{ display:list— item; 
list— style— type:disc; 
margin— left:35; 
font— size:10pt; 
font - family: 宋 体 ; 
font — weight:300; 
font— style:normal 


} 


example8_7. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "sevenCSS. css" type = "text/css" ?> 
<goods> 商品 列表 
<name> 洗衣 机 
<price> 1278 元 /人 台 </price> 
<madeTime > 生产 日 期 : 2009 年 10 月 </madeTime > 
</name > 


<name> 冰箱 
<price> 6572 元 /人 台 </price> 
<madeTime > 生产 日 期 : 2009 年 12 月 </madeTime > 
</name > 
</goods > 


8.7 文本 样式 


样式 表 中 与 文本 样式 有 关 的 属性 包括 : 


text 一 align,text 一 indent, text — transform, text — decoration, vertical ~ align, line— height 
以 下 分 别 叙 述 上 述 属 性 的 取 值 情况 。 
1. text-align 属性 


text-align 属性 的 值 用 来 设置 文本 的 对 齐 方式 ,其 默认 值 是 left。 该 属性 能 取 的 属性 
值 如 下 : 


left( 左 对 齐 ),right( 右 对 齐 ),center( 居 中 对 齐 ),justify( 两 端 对 齐 ) 
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例如 : 


text ~ align:center 


2.text-indent 属性 
text-indent 属性 的 值 用 来 设置 文本 首 行 的 缩 进 量 ,单位 是 像素 (px) 或 磅 (pt) ,默认 值 
是 0。 例 如 : 


text 一 indent:16pt 


3。text-transform 属性 
text-transform 属性 的 值 用 来 设置 是 否 将 文本 中 的 字母 全 部 大 写 .全 部 小 写 或 者 首 字 
母 大 写 ,默认 值 是 none, 该 属性 能 取 的 属性 值 如 下 : 


uppercase, lowercase, capitalize, none 
例如 : 


text — transform:uppercase 


4. text-decoration 属性 

text-decoration 属性 的 值 用 来 设置 是 否 将 文本 加 下 画 线 ,默认 值 是 none, 该 属性 能 取 
的 属性 值 如 下 : 

none, underl ine, overline, line — through, blink 


例如 : 


text 一 decoration:underline 


S。 vertical-align 属性 

vertical-align 属性 的 值 用 来 设置 文本 的 垂直 对 齐 方式 ,默认 值 是 middle, 该 属性 能 取 
的 属性 值 如 下 : 

baseline, sub, super, top, text — top, middle, bottom, text 一 bottom 


例如 : 


vertical ~ align:baseline 


6. line-height 属性 
line-height 属性 的 值 用 来 设置 文本 的 行距 ,默认 值 是 1, 该 属性 的 取 值 是 正 数 。 
例如 : 


line— height:1.5 

注意 : 如 果子 标记 的 样式 表 中 不 指定 文本 的 样式 属性 , 子 标记 就 会 使 用 父 标记 的 样 
式 表 中 的 文本 样式 属性 及 属性 值 。 

下 面 的 例 8 中 CSS 文件 中 的 样式 表 使 用 了 和 文本 样式 有 关 的 属性 ,以 便 显示 一 个 数 
学 公式 和 两 个 化 学 分 子 式 。 用 浏览 副 打 开 example8_8. xml 的 效 采 如 图 8. 9 所 示 。 
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【 例 8】 
eightCSS. cess 
a 站 +2AB+P 
math 
{ display:block; 
font — size:12pt; 图 8.9 设置 文本 样式 


font— style:italic; 
background — color: rgb(227, 228, 229); 
} 
chemistry 
{ display:block; 
font— size:12pt; 
text 一 decoration: underline; 
background — color: cyan; 


sup 

{ display:line; 
font — size:8pt; 
font— style:italic; 
vertical ~ align: super; 


low 

{ display:line; 
font — size:8pt; 
vertical ~ align: bottom; 


example8_8. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "eightCSS. css" type = "text/css" ?> 
< root> 
<math> 
平方 和 公式 :(A+B)< sup>2</sup>=A<sup>2</sup>+2AB+B< sup>2</sup> 

</math> 

< chemistry> 水 的 分 子 式 : H< low>2</low>0</chemistry> 

< chemistry> 二 氧化 碳 的 分 子 式 :CO0< low> 2 </1low ></chemistry > 
</root > 


8.8 边 框 


可 以 按 文本 的 显示 形式 为 文本 添加 边框 。 如 采 文 本 是 按 块 (block) 方 式 显 示 的 ,那么 
边框 束 是 块 的 边框 ; 如 采 文 本 是 按 行 (lne) 方 式 显示 的 ,那么 边框 就 是 行 的 边框 ; 如 采 文 
本 是 按 列 表 (listitem) 方 式 显示 的 ,那么 边框 就 是 列表 的 边框 。 

样式 表 中 与 文本 边框 有 关 的 属性 包括 : 


border — style, border — right - width, border — right — style, border — right — color 
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以 下 分 别 叙 述 上 述 属 性 的 取 值 情况 。 

1. border-style 属性 

该 属性 的 默认 值 是 none, 即 文本 默认 没有 边框 。 为 了 给 文本 增加 边框 ,样式 表 中 首 
先 要 设置 border-style 属性 的 值 ,使 得 文本 具有 边框 ,然后 再 设置 其 他 属性 的 值 。border- 
style 属性 可 取 的 值 有 : 


none, dotted, dashed, solid, double, groove, ridge, inset, outset 


例如 : 


border — style: dotted 


为 文本 设置 点 状 的 边框 。border-style 属性 的 各 个 属性 值 代表 的 边框 效果 如 下 : 

。 dotted 边框 线 是 点 组 成 的 虚线 。 

。 dashed 边框 线 是 短线 组 成 的 虚线 。 

。 double 边框 线 是 双 线 。 

。 groove 3D 沟 槽 状 边框 。 

。 ridge 3D 浓 状 的 边框 。 

。 inset 3D 内 裔 边框 。 

。 outset 3D 外 裔 边框 。 

。 solid 普通 的 边框 。 

2. border-right-width 等 属性 

border-top-width\ border-bottom-width、 border-right-width 和 border-left-width 等 
属性 用 来 设置 边框 的 上 边 、 底 边 、 右 边 和 左边 的 宽度 ,这 些 属性 的 默认 值 都 是 1。 可 以 重 
新 设置 这 些 属性 的 值 来 改变 边框 的 上 边 、 底 边 、 右 边 和 左边 的 宽度 ,例如 : 

border — top — width:12; 

border — left - width: 22; 

3. border-right-style 等 属性 

border-right-style ,border-left-style、 border-bottom-style、border-top-style 等 属性 用 
来 单独 设置 边框 的 右边 、 左 边 、 底 边 和 上 边 的 样式 。 也 就 是 说 ,在 设置 了 border-style 属 
性 后 ,可 以 再 单独 设置 这 些 属性 ,修改 边框 的 某 个 边 的 样式 ,该 4 个 属性 的 取 值 范围 和 
border-style 的 相同 。 例 如 ,border-style 属性 的 值 是 dotted, 那 么 边框 的 四 个 边 的 样式 都 
是 点 状 样式 。 如 果 想 使 底 边 的 样式 是 虚线 ,就 可 进行 如 下 的 设置 .: 


border — bottom— style:dashed 


4. border-right-color 等 属性 

border-right-color border-left-color、 border-bottom-color、 border-top-color 等 属性 
用 来 设置 边框 的 颜色 ,这 些 属性 的 默认 值 灰色 。 可 以 为 这 些 属性 重新 设置 颜色 值 ,改变 边 
框 的 颜色 ,例如 : 


border — right ~ color:blue 
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在 下 面 的 例 9 中 ,有 3 个 标记 的 内 容 的 显示 方式 都 是 块 方式 ,其 中 的 2 个子 标 记 的 块 
区 域 被 限制 在 父 标 记 的 块 区 域 中 。 通 过 使 用 边框 可 明显 地 分 辨 出 这 3 块 区 域 。 浏 览 句 显 
示 example8 9. xml 的 效果 如 图 8. 10 所 示 。 

【 例 9】 


nineCSS. css 
Beijing 
{ display:block; 
border — style:double; 


width = 260; 

height = 120 8.10 ”使 用 边框 
} 
Haidian 


{ display:block; 
border — style:dotted; 
width= 150; 
height = 60 ; 
font— size:10pt; 


Xuanwu 

{ display :block; 
border — style:ridge; 
width = 90; 
height = 30; 
font— size:10pt; 

} 


example8 9. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "nineCSS.css" type = "text/css" ?> 
<China> 
<Beijing> 北京 市 
< Haidian > 海 注 区 </Haidian> 
< Xuanwu > 宣武 区 </Xuanwu > 
</Beijing> 

</China > 


8.9 边 毕 


有 时 我 们 需要 设置 边缘 ,边缘 是 文本 周围 不 可 见 的 区 域 。 如 采 文 本 是 按 块 显示 的 , 那 
么 边缘 就 是 块 的 边缘 ; 如 有 果 文 本 是 按 行 显示 的 ,那么 边缘 就 是 行 的 边 绿 ; 如 有 果 文 本 是 按 
列表 显示 的 ,那么 边缘 就 是 列表 的 边 绿 。 

和 边缘 有 关 的 属性 包括 : 


margin 一 top,margin 一 right, margin 一 bottom,margin— left 
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例如 : 
margin 一 top:20; margin 一 zight:120;margin 一 left:10; 


分 别 设置 了 上 边缘 、 右 边缘 和 左边 缘 的 大 小 ,单位 是 像素 。 
在 下 面 的 例 10 中 ,有 2 个 标记 的 内 容 的 显示 方式 都 是 块 方式 ,并 设置 了 边缘 的 大 小 。 
浏览 圳 显示 example8_10. xml 的 效果 如 图 8. 11 所 示 。 


【 例 10】 

tenCSS. css 

gradel 高 级 灌水 师 
{ 。 姓名 ， 小 思 


。 发 证 单位 ， 思 魔方 网 站 
当当 当当 当当 当当 当当 当当 


display: block; 


border — style:ridge; : 初级 灌水 师 : 
border — top— width:15; :。 姓名 ，Nancy : 

。s 发 证 单位 : 时 四 . 
margin — top:2; Doni 


ER 图 8.11 设置 边缘 

margin— right:2; 

text ~ align: center; 

font — size:18pt;color:red; 

width = 230; 

height = 100; 
} 
name, authorized 
{ 

display:list— item; 

margin— left:22 ; 

text ~— align:left; 

font— size:12pt;color:green; 
} 
grade2 
{ 

display: block; 

border — style:dotted; 

border — top— width:10; 

margin — top:12; 

margin— left:2 ; 

margin— right:2; 

text ~ align: center:; 

font — size:18pt;color:blue; 

width = 230; 

height = 100; 
} 


example8_10. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "tenCSS. css" type = "text/css" ?> 
<TOOL> 
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< gradel > 
高 级 灌水 师 
<name> 姓名 : 小 黑 </name > 
< authorized> 发 证 单位 : 黑 磨 方 网 站 </authorized > 
</gradel > 
< grade2 > 
初级 灌水 师 


<name> 姓名 : Nancy </name> 
<authorized> 发 证 单位 : 黑 磨 方 网 站 </authorized> 
</grade2 > 
</root > 


8.10 闫 色 和 背 虹 


如 果 需 要 设置 文本 的 字符 颜色 和 背景 颜色 ,就 可 以 使 用 属性 color 和 background- 
color。 


通过 设置 color 属性 的 值 可 以 指定 文本 的 字符 颜色 ,例如 : 


color:rgb(120,225, 220); 
color:red; 


通过 设置 background-color 属性 的 值 可 以 指定 文本 的 背景 颜色 ,例如 : 


background - color:rgb(10,225, 220); 
background — color:yellow; 


8.11 显示 图 像 
可 以 通过 设置 background-image 属性 的 值 为 文本 指定 一 幅 背 景 图 像 。background- 
image 属性 的 取 值 形式 为 : 
URL( "文件 名 字 " ); 
例如 : 
background — image:URL("animal. jpg" ); 


另外 ,还 可 以 通过 background-repeat 属性 设置 图 像 是 否 通 过 重复 出 现 来 平 铺 背景 。 
background-repeat 取 值 如 下 : 


repeat, repeat -一 x, Tepeat ~ Yr no 一 Tepeat 


例如 : 


background — repeat :repeat 


其 中 repeat-x 和 repeat-y 表示 仅仅 沿 水 平 或 垂直 方向 重复 图 像 。 
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也 可 以 单独 地 显示 一 幅 图 像 ,并 指定 图 像 和 周围 文本 的 位 置 关 系 。 为 了 单独 显示 一 
幅 图 像 ,只 要 形式 上 为 一 个 空 标记 指定 一 幅 背 景 图 像 即 可 。 由 于 空 标 记 没 有 文本 内 容 , 其 
背景 的 大 小 为 0X0, 所 以 相关 的 样式 表 必 须 将 display 设置 为 block, 并 使 用 width 和 
height 属性 指定 块 区 域 的 大 小 。 

下 面 的 例 11 除了 给 一 个 标记 的 文本 设置 背景 图 像 外 ,还 通过 形式 上 为 一 个 空 标记 设 
置 背景 ,将 一 幅 图 像 单 独 显 示 出 来 ,效果 如 图 8. 12 所 示 。 

【 例 11】 


elevenCSS. css 


tom 


{ 
display: block; 


position:absolution; 
top = 50 ; 
left = 10; 图 8.12 显示 图 像 
width = 150px; 
height = 120px; 
text ~ align: center:; 
font — size:18pt;color:blue; 
font — weight:bold; 
background — image:URL(tom. jpg); 
background — repeat :no 一 repeat 
} 
image 
{ 
display: block; 
position:absolution; 
top = 10; 
left = 180; 
width = 150px; 
height = 200px; 
background — image:URL(flower. gif ); 
background — repeat :repeat 
} 


example8_11. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "elevenCSS. css" type = "text/css" ?> 
<root> 
<tom> 
俺 是 著名 的 TOM 老 猫 ,很 多 人 使 用 做 的 形象 
</tom> 
< image/> 
</root > 
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8.12 设置 鼠标 的 形状 


如 果 和 希望 控制 鼠标 指针 运动 到 文字 的 显示 区 域 上 面 时 的 形状 ,就 可 以 使 用 cursor 属 
性 。cursor 属性 可 以 取 的 值 有 : 


auto, crosshair, default, hand, move, e — resize, ne — resize,nw— resize,n— resize, se— resize, 


SWw— resize,s— resize,Ww— resize, text,wait, help 


cursor : hand; 


指定 鼠标 指针 运动 到 文字 的 显示 区 域 上 面 时 变 成 * 手 ”的 形状 。 
例 12 中 ,两 个 标记 的 显示 方式 是 块 区 域 , 当 鼠标 指针 在 块 区 域 上 方 时 改变 形状 。 
【 例 12】 


twelveCSS. ess 


mouse# Al 
{ display:block; 
cursor: hand; 
font — size:16pt; 
color: red; 
width = 130; 
height = 100; 
border — style:double; 
} 
mouse# A2 
{ display:block; 
cursor: move; 
font — size:16pt; 
color: blue; 
width = 130; 
height = 100; 
border — style:double; 
} 


example8 12. xml 


<?xml version= "1.0” encoding= "UTF— 8”?> 
<?xml — stylesheet href = "twelveCSS. css" type = "text/css" ?> 


<root> 
<mouse ID = "Al"> 
鼠标 在 我 上 面 是 手 的 形状 
</mouse> 
<mouse ID= "A2"> 
鼠标 在 我 上 面 是 运动 的 形状 
</mouse> 


</root > 
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8.13 处理 层 香 


样式 表 通 过 指定 属性 display 的 值 来 设置 文本 的 显示 方式 ,例如 ,display :block 使 得 
文本 将 在 浏览 需 的 一 个 块 区 域 中 显示 。 样 式 表 中 还 可 以 通过 设置 position、width 和 
height 属性 的 值 来 准确 地 设置 显示 区 域 的 位 置 和 大 小 ,那么 样式 表 设 置 的 显示 区 域 就 有 
可 能 发 生 重 装 。 

可 以 在 样式 表 中 设置 z-index 属性 的 值 来 规定 一 个 样式 表 所 在 的 层 ,z-index 属性 的 
值 应 是 正 整 数 , 称 为 样式 表 的 层 数 。 当 样式 表 之 间 的 显示 区 域 发 生 重 状 时 ,具有 和 较 大 层 数 
的 样式 表 的 显示 区 域 将 遮挡 具有 较 小 层 数 的 样式 表 的 显示 区 域 。 

注意 : 如 果 不 设置 z-index 属性 的 值 , 后 被 使 用 的 样式 表 的 显示 区 域 将 遮挡 先 被 使 用 

在 下 面 的 例 13 中 ,两 个 样式 表 的 显示 区 域 发 生 了 重 巡 ,浏览 船 显示 example8_13. xml 
的 效果 如 图 8. 13 所 示 。 

【 例 13】 


thirteenCSS. cess 


house 
{ display:block; 


position:absolution; 


top=6; 
left = 10; 
width = 150px; 8.13 ”处理 层 靶 


height = 120px; 
background — image: URL("house. jpg" ); 
background — repeat :no ~ repeat ; 


z— index:10; 


{ display :block; 
position:absolution; 
top=6; 
left=110; 
width = 170px; 
height = 110px; 
background — image: URL("road. jpg" ); 
background — repeat :no ~ repeat ; 
zz 1ndex:5: 


} 


example8_13. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "thirteenCSS. css" type = "text/css" ?> 
之 和 LEY> 
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<road/> 
<house/> 
</city> 


习题 8 


1. XML 文件 使 用 什么 指令 来 使 用 CSS? 

2. 若 XML 有 一 个 标记 的 名 字 是 “学 生 ”, 要 使 该 标记 中 的 文本 内 容 在 一 个 块 区 域 中 
显示 .字体 的 颜色 是 “红色 ”字体 的 大 小 是 18 磅 ,对 应 的 CSS 应 当 提 供 怎样 的 样式 表 ? 

3. 若 XML 有 三 个 标记 的 名 字 都 是 “学 生 ”, 都 有 “ID” 属 性 。 请 编写 CSS 使 得 三 个 该 
标记 中 的 文本 内 容 分 别 在 块 区 域 中 显示 ,要求 三 个 块 区 域 的 边框 互 不 相同 。 

4. 有 下 列 XML 文件 以 及 CSS 层 友 样式 表 , 若 需 显示 效果 如 图 8. 14 所 示 的 数据 ,应 
当 修 改 XML 文件 还 是 CSS 层 秋 样式 表 文 件 ? 


Xiti4. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "showStudent. css" type = "text/css" ?> 
< root> 
<student> 

王 开 出 

< sex> 田 </sex> 

<birthday > 1970.12.28 出 生 </birthday > 

<address> 广东 </address > 


</ student > 
</root > 
showStudent. css 1， 张 三 
i 男 
student 让 1990.78 出生 
{ _ display:block; E 过 北京 
display:list — item; 
list— style— type:decimal; > Ee 出 生 
margin— left:30; 3， 和 孙 五 


font— size:10pt; Te 出 生 
color:black; 这， 上海 
J 图 8.14 用 样式 表 显 示 数 据 
{ display:list— item; 
list— style— type:lower— roman; 
margin— left:60; 
font 一 size:8pt; 
color:green; 
} 
birthday 
{ display:list— item; 


list— style— type:lower— roman; 
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margin— left:60; 
font — size:8pt; 
color:blue; 

} 

address 

{ display:list— item; 
list— style 一 type:lower ~— roman; 
margin— left:60; 
font — size:8pt; 
color:pink; 

} 


5. 请 为 下 列 XML 文件 编写 相应 的 CSS, 使 得 XML 文件 的 数据 显示 效果 如 图 8. 15 
J 


XitiS. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
<?xml — stylesheet href = "show. css" type= "text/css" ?> 
<root> 
<math> 
S<low>n</low>= 
a<low>1</low>+a<low>2</low>+:… +a<low>n</low> 
</math> 
<chemistry> 
(NH< low> 4 </low>)<low> 2</low>0, 
CO < low> 2 </low >. 
</chemistry > 
</root > 


地 址 0) 加 D:\chaperB\Xiti5. xml 


Sn= (1 十 C42 十 … 十 Cs 


(NH4)20, CO2. 


图 8.15 样式 表 显 示 数 据 的 效果 


XML Schema 模式 简介 


主要 内 容 

。 什么 是 XML Schema 

。 XML Schema 中 的 标记 

。 XML Schema 模式 的 验证 
。 简单 类 型 元 素 

。 复杂 类 型 元 素 

。 属性 


XML Schema 模式 的 内 容 非常 庞大 ,详细 地 讲解 XML Schema 的 内 容 已 经 超出 了 本 
书 的 范围 ,本 书 就 XML Schema 最 基本 的 内 容 给 予 简单 的 介绍 ,读者 可 以 访问 


WwW. W3 . org/TR/xmlschema — 1/. XML 


了 解 有 关 最 新 的 进展 情况 。XML Schema 的 标准 稍 显 宽泛 了 一 些 , 如 果 对 XML 文件 的 
约束 只 限于 文件 的 标记 和 属性 结构 ,而 不 涉及 文本 的 具体 内 容 , 那 么 使 用 DTD 即 可 。 
DTD 能 够 完成 XML Schema 模式 的 大 部 分 功能 , 且 简 单 .兼容 性 更 好 ,第 4 章 和 第 5 章 学 
习 的 DOM 解析 需 和 SAX 解析 融 都 能 用 来 验证 XML 文件 是 否 遵 守 了 DTD 模式 的 
约束 。 


9.1 什么 是 XML Schema 


XML 标记 的 内 容 可 以 由 文本 数据 和 标记 组 成 ,模式 就 是 为 了 限制 标记 应 当 有 怎样 
的 文本 内 容 以 及 可 以 有 哪些 子 标 记 。 

第 3 章 介 绍 了 DTD 文件 ,及 如 何 使 用 DTD 文件 约束 XML 文件 。 可 以 将 DTD 文件 
看 做 XML 文件 的 一 种 模式 ,一 个 和 DTD 关联 的 有 效 的 XML 文件 必须 遵守 该 模式 。 但 
是 ,DTD 文件 也 有 不 足 之 处 。 例 如 , 当 DTD 使 用 Element 元 素 将 一 个 标记 约束 为 ^# 
PCDATA” 时 ,仅仅 是 限制 了 该 标记 只 能 有 文本 数据 , 却 不 能 限制 文本 数据 的 实际 意义 。 
再 如 ,不 能 强制 限制 文本 内 容 是 浮 点 数 或 是 日 期 形式 的 数据 ,例如 “28. 16” 或 “2010-12-26”。 

W3C XML Schema 给 出 了 一 种 新 的 模式 ,简称 XML Schema 模式 ,该 模式 不 仅 能 实 
现 DID 的 大 部 分 功能 ,而 且 能 指定 标记 内 容 的 “数据 类 型 ”。 但 XML Schema 模式 也 不 
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是 万 能 的 ,XML Schema 模式 的 出 现 并 不 意味 着 抛弃 DTD,DTD 可 以 实现 XML Schema 
模式 不 能 实现 的 功能 ,而 且 较 XML Schema 模式 而 言 ,具有 更 广泛 的 解析 胡 文 持 。 

DTD 非常 适合 下 列 情形 : 

QO 文件 是 叙述 性 的 ,并 有 混合 内 容 。 

@ 需要 约束 标记 之 间 的 关系 ,特别 是 子 标记 的 顺序 关系 ,而 不 是 标记 本 和 号 的 文本 
内 容 。 

@ 需要 使 用 实体 。 

@ XML 文件 的 使 用 者 对 使 用 的 DID 达成 一 致 。 

XML Schema 非常 适合 下 列 情形 : 

QO 需要 定义 数据 类 型 ,以 便 约束 标记 的 文本 内 容 的 结构 ,可 以 约束 “日 期 ”标记 的 内 
容 是 “yyyy-mm-dd” 格 式 的 字符 串 ,如 “2010-12-12”。 

@ 标记 的 子 标记 的 顺序 并 不 重要 ,重要 的 是 其 数量 。 

@ 标记 约束 不 限于 父子 关系 ,也 可 以 是 祖先 及 子孙 关系 。 

@ 跨越 多 个 文件 ,名 称 空间 前 级 不 一 致 。 

相对 与 DTD,XML Schema 模式 的 最 大 优势 就 是 可 以 约束 XML 标记 的 数据 类 型 。 
若 有 一 个 XML 文件 , 根 标记 是 “商品 列表 ”, 要 求 根 标记 有 若干 个 子 标记 “商品 ”, 要 求 每 
个 “商品 ”标记 顺序 地 有 “名 称 ”、“ 生 产 日 期 ?和 “价格 ” 子 标记 。 如 果 非 常 关心 标记 “生产 日 
期 ?和 “价格 ”的 数据 的 表示 形式 ,希望 约束 “生产 日 期 ”标记 的 内 容 必 须 是 yyyy-:mm-dd” 
形式 ,希望 约束 “价格 ”标记 的 内 容 必 须 是 数字 形式 的 序列 ,那么 DTD 无 能 为 力 。 而 XML 
Schema 模式 可 以 约束 标记 的 数据 类 型 ,这 里 所 说 的 数据 类 型 是 指数 据 的 表示 形式 。 例 如 ， 
一 个 标记 的 内 容 被 约束 为 int 型 ,那么 该 标记 的 文本 内 容 必 须 是 由 数字 型 字符 组 成 。 


9.2 XML Schema 中 的 标记 


XML Schema 模式 是 扩展 名 为 “. xsd” 的 一 个 文本 文件 ,使 用 XML 语法 来 编写 ,这 一 
点 和 DTD 文件 不 同 , 保 存 时 所 选择 的 编码 必须 和 所 约束 的 XML 文件 一 致 。 例 如 ,XML 
Schema 所 要 约束 的 XML 文件 的 编码 为 UTF-8, 那 么 XML Schema 模式 也 必须 按照 
UTF-8 编 色 保存 。 硅 在 保存 文件 时 ,系统 总 是 自动 在 文件 名 尾 加 上 “. txt” ,那么 在 保存 文 
件 时 可 以 将 文件 名 用 双 引 号 括 起 来 。 


9.2.1 根 标记 


XML Schema 模式 的 根 标记 必须 是 schema ,使 用 的 名 称 空间 必须 是 : 
http://www.w3.org/2001/XMLSchema 
名 称 空间 的 前 级 是 xsd。 例 如 : 


<xsd:schema xmlns:xsd = "http://www.w3.org/2001/XMLSchema"> 
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</xsd: schema > 


9.2.2 元 素 标 记 


XML Schema 模式 的 主要 目的 是 用 element 标记 来 约束 XML 文件 中 的 标记 。 可 以 
将 element 标记 作为 XML Schema 模式 中 根 标 记 的 子 标 记 来 使 用 ,XMIL Schema 模式 中 
的 element 标记 人 简称 为 元 素 。 和 在 元 素 是 根 标记 的 子 标 记 , 则 称 为 全 局 元 素 , 全 局 元 素 的 作 
用 是 约束 XML 文件 中 任何 级 别 上 的 子 标记 ,无 论 该 XML 标记 是 XML 文件 中 的 哪 一 级 
子 标记 。 以 下 详细 讲解 有 关 element 标记 的 使 用 细节 。 

对 于 XML 文件 中 没有 子 标 记 的 标记 ,XML Schema 模式 使 用 “简单 类 型 ”元 素来 约 
束 。XML Schema 中 “简单 类 型 ”元 素 的 格式 为 : 


<xsd:element name = "标记 名 称 " type= "简单 数据 类 型 "/> 


其 中 ,“ 标 记名 称 ” 就 是 对 应 的 XML 文件 中 标记 的 名 称 , “简单 数据 类 型 ”对 标记 中 文本 数 
据 进 行 限制 。 例 如 ,XML Schema 模式 有 如 下 的 元 素 : 


<xsd:element name = "生产 日 期 "type = "xsd:date" /> 
那么 使 用 该 模式 进行 约束 的 XML 文件 中 的 任何 名 字 为 “生产 日 期 ”的 标记 中 的 文本 数据 
必须 是 日 期 类 型 。 

XML Schema 模式 可 以 使 用 的 简单 数据 类 型 有 : int,float、 double、date,time, string 
等 ,例如 元 素 : 


<xsd:element name = "价格 "type = "xsd:float"/> 


约束 XML 文件 中 的 “价格 ”没有 子 标记 , 且 标 记 的 数据 必须 是 浮 点 数据 , 即 内 容 必 须 是 数 
字 ( 可 以 有 小 数 点 ) 组 成 的 序列 ,例如 6785.89、1278. 66 等 。 下 列 元 素 : 

<xsd:element name = "开车 时 间 " type = "xsd:time" /> 
约束 XML 文件 中 的 “开车 时 间 ” 没 有 子 标记 , 且 标 记 的 数据 必须 是 时 间 , 即 内 容 必 须 是 
“hh ， nm: ss” 形 式 ,例如 ,08:20:00。 

对 于 XML 文件 中 有 子 标记 的 标记 ,XML Schema 模式 文件 使 用 “复杂 类 型 ”元 素来 
约束 。XML Schema 中 “复杂 类 型 ”元素 的 格式 为 : 


<xsd:element name =" 标 记名 称 " > 
<xsd:complexType> 


</xsd:complexType > 
</xsd:element > 


以 下 一 个 “复杂 类 型 "元素: 


<xsd:element name = "商品 "> 
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<xsd:complexType > 
<xsd:sequence> 
<xsd:element ref = "名称 "/> 
<xsd:element ref = "和 牛 产 日 期 "/> 
<xsd:element ref = "价格 "/> 
</xsd: sequence > 
</xsd:complexType > 
</xsd:element > 


上 述 元 素 约 束 任何 名 字 为 “商品 ”的 标记 必须 顺序 地 有 三 个 名 字 分 别 为 “名 称 ”“ 生 产 日 
期 * 和 “价格 ”的 子 标记 ,其 中 


<xsd:element ref =" 子 标记 名 字 "/> 


的 作用 是 对 “ 子 标记 名 字 ” 指 定 的 XML 子 标记 的 约束 引用 Schema 模式 中 全 局 元 素 给 出 
的 约束 条 件 。 
下 面 是 一 个 约束 XML 文件 中 名 字 为 “商品 "标记 的 "复杂 类 型 "元 素 ， 
<xsd:element name = "商品 ”> 
<xsd:complexType > 
<xsd:all > 
<xsd:element ref = "名 称 "/> 
<xsd:element ref = "生产 日 期 "/> 
<xsd:element ref= "价格 "/> 
</xsd:all > 
</xsd:complexType > 
</xsd:element > 


上 述 element 元 素 约束 任何 名 字 为 “商品 ?的 标记 必须 有 三 个 名 字 分 别 为 “名称 ”生产 日 
期 2 和 ”价格 ”的 子 标记 ,但 三 个 子 标 记 的 顺序 可 任意 排列 ,不 受 限 制 。 


9.2.3 属性 标记 


对 于 XML 文件 中 的 属性 ,XML Schema 模式 使 用 attribute 标记 来 给 予 约束 ,我 们 在 
后 续 的 9.6 节 讲 解 attribute 标记 的 使 用 细节 。 


9.3 XML Schema 模式 的 验证 


XML Schema 模式 的 目的 是 约束 一 个 规范 的 XML 文件 ,也 称 一 个 受 某 个 XML 
Schema 模式 约束 的 XML 文件 是 有 效 的 XML 文件 。 

显然 ,人 们 不 愿意 人 工地 来 验证 XML 文件 是 否 遵 守 了 XML Schema 模式 所 规定 的 
约束 条 件 , 则 可 以 使 用 Sun 公司 SDK1. 5 后 续 版 本 提供 的 API 验证 一 个 XML 文件 是 否 
遵守 了 某 个 XML Schema 模式 。 

验证 一 个 XML 文件 是 否 体 守 了 某 个 XML Schema 模式 的 步骤 如 下 。 
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1. 得 到 一 个 SchemaFactory 对 象 
使 用 SchemaFactory 类 的 静态 方法 


static SchemaFactory newInstancel( String schemaLanguage) 
得 到 一 个 SchemaFactory 对 象 ,该 方法 中 参数 的 取 值 必须 是 : 
"http://www. w3. org/2001/XMLSchema" 


例如 : 


SchemaFactorVy SchemaFactory = 
SchemaFactory. newInstance( "http://www. w3. org/2001/XMLSchema" ); 


2. 创建 Schema 对 象 
步骤 1 中 得 到 的 SchemaFactory 对 象 调用 


Schema newSchema(File schema) 


方法 ,可 以 返回 一 个 Schema 对 象 , 例 如: 


Schema schema = schemaFactory. newSchema(new File("pattern. xsd")); 


3. 得 到 验证 器 
步骤 2 中 得 到 的 Schema 对 象 调 用 


Validator newValidator( ) 
方法 返回 一 个 验证 需 , 例 如: 


Validator validator = Schema. newValidator( ); 


4. 使 用 验证 希 
验证 融 言 先 调用 


void setErrorHandler(ErrorHandler errorHandler) 
方法 设置 负责 报告 错误 的 处 理 右 ,其 中 参数 取 值 必须 是 实现 ErrorHandler 类 的 实例 。 
DefaultHandler 类 是 实现 了 ContentHandler.DTDHandler、EntityResolver 和 ErrorHandler 接 
口 的 类 ,可 以 用 DefaultHandler 类 的 子 类 的 实例 作为 报告 错误 的 处 理 需 。 

然后 再 调用 


public void validatel( Source source) 


方法 验证 XML 文件 是 否 还 守 了 XML Schema 模式 ,例如 : 


Validator. validate(new StreamSource(new File("examplel0 1.xml"))).; 


在 下 面 的 例 1 中 ,有 一 个 简单 的 XML Schema 模式 文件 schema9 1. xsd, 用 来 约束 
example9_1. xml 文件 。 要 求 “商品 列表 ?可 以 有 符 干 个 “商品 ?标记 ,每 个 "商品 ?标记 必须 
有 顺序 地 有 “名称 ”“ 生 产 日 期 ”和 ”价格 ? 子 标记 ,要 求 标 记 ”* 生 产 日 期 > 的 内 容 必 须 是 
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“yyyy-mm-dd 形式 ,标记 ”价格 "的 内 容 必 须 是 浮 点 数 形 式 。 使 用 例 1 的 TestSchema. 
java 文件 进行 验证 的 效 采 如 图 9.1 所 示 。 


he 


Jar 立 件 人 | se9_1. xml 罕 合 模式 


9.1 使 用 Schema 模式 验证 XML 文件 


【 例 1]】 


example9 1. Xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 商品 列表 > 
< 商品 > 
< 名 称 > 电 视 机 </ 名 称 > 
< 生产 日 期 >2010- 12- 12 </ 生 产 日 期 > 
< 价格 > 5673. 89 </ 价 格 > 
</ 商 品 > 
< 商品 > 
< 名 称 > 洗 衣 机 </ 名 称 > 
< 生产 日 期 >2010- 10- 10</ 生 产 日 期 > 
< 价格 > 3673. 67 </ 价 格 > 
</ 商 品 > 
</ 商 品 列表 > 


schema9 1. xsd 


<xsd:schema xmlns:xsd = "http://www.w3.org/2001/XMLSchema"> 
<xsd:element name = "商品 列表 " > <! -- 对 根 标 记 的 约束 -一 > 
<xsd:complexType> 
<xsd: sequence> 
<xsd:element ref = "商品 " minOccurs = "1" maxOccurs = "unbounded" /> 
</xsd: sequence> 
</xsd:complexType > 
</xsd:element > 
<xsd:element name = "商品 ”> <! 一 一 对 商品 标记 的 约束 -一 > 
<xsd:complexType> 
<xsd: sequence> 
<xsd:element ref = "名 称 "/> 
<xsd:element ref = "生产 日 期 "/> 
<xsd:element ref = "价格 "/> 
</xsd:sequence> 
</xsd:complexType > 
</xsd:element > 
<xsd:element name = "名 称 " type= "xsd: string"/> <! -- 对 名 称 标记 的 约束 --> 
<xsd:element name= "生产 日 期 " type= "xsd:date"/> <! -- 对 生产 日 期 标记 的 约束 --> 
< xsd:element name = "价格 "type = "xsd:float"/> <! -一 对 价格 标记 的 约束 --> 
</xsd:schema > 
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TestSchema. java 


import org. xml. sax. helpers. DefaultHandler; 
import org. xml. sax. ”; 
import java. io. *; 
import Javax. xml.validation.  ; 
import javax. xml.transform. stream. StreamSource; 
public class TestSchema{ 
public static void main(String args[ ]){ 
File xsdfile = new File("schema9 1.xsd"); 
File xmlfile= new File("example9 1.xml"); 
Handler errorHandler = null; 
try{ SchemaFactory schemaFactory = 
SchemaFactory. newInstance( "http://www.w3.org/2001/XMLSchema" ) ; 
Schema schema = schemaFactory. newSchema(xsdfile) ; 
Validator validator = Schema. newValidator( ); 
errorHandler = new Handler( ) ; 
Validator. setErrorHandler(errorHandler); 
Validator. validate(new StreamSource(xmlfile)); 
} 
catch( Exception e){ 


System. out. println(e); 
} 


if(errorHandler. errorMessage == null) 


System. out. println("XML 文件 :" + xmlfile.getName( ) + "符合 模式 "); 
else 


System. out. println("XML 文件 :" + xmlfile.getName( ) + "不 符合 模式 "); 


} 
class Handler extends DefaultHandler!{ 
String errorMessage = null; 
public void error(SAXParseException e) throws SAXException{ 
errorMessage = e. getMessage!( ) ; 
int row = e. getLineNumber( ); 
int colums = e. getColumnNumber ( ) ; 


System. out. println( "一般 错 误 : " + errorMessage + "位置 : "+ rowt+"," +colunms); 


} 


public void fatalError( SAXParseException e) throws SAXExceptionf{ 
errorMessage = e. getMessage!( ) ; 
int row = e. getLineNumber( ); 
int colums = e. getColumnNumber( ); 


System. out. println( "致命 错误 : " + errorMessage + "人 位置: "+ row+"," +colums); 
} 


如 条 将 example9_1. xml 中 “电视 机 ”的 生产 日 期 更 改 为 *2010-04-31”, 那 么 将 导致 不 
符合 模式 的 错误 ,因为 4 月 没有 31 日 ,图 9.2 所 示 为 程序 检查 出 的 错误 信息 。 
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一 般 错 误 : cve-datatvype-valid. 1.2.1; ”2010-04-31” is not a valid value 
.位 置 ;: 5. 30 


图 9.2 检查 出 的 错误 


9.4 简单 类 型 元 系 


对 于 XML 文件 中 没有 子 标记 的 标记 , 即 只 有 文本 数据 的 标记 ,XML Schema 模式 可 
以 使 用 内 建 的 “简单 类 型 ”元 素来 给 予 约束 。XML Schema 中 内 建 的 “简单 类 型 "元 素 的 
格式 为 : 

<xsd:element name = "标记 名 称 " type = "简单 数据 类 型 "/> 
如 果 内 建 的 “简单 类 型 ”元 素 是 全 局 元 素 , 即 是 “schema” 根 标记 的 子 标 记 , 那 么 内 建 的 “人 简 
单 类 型 "元素 可 以 约束 由 该 元 素 name 属性 值 指定 的 XML 文件 中 的 XML 标记 ,无 论 该 
XML 标记 是 XML 文件 的 哪 一 级 子 标记 。 内 建 “ 简 单 类 型 "元素 标 记 中 涉及 type 属性 的 
值 , 正 是 这 个 值 决 定 了 该 element 元 素 标 记 是 内 建 的 “简单 类 型 ”元 素 。 对 于 内 建 的 “简单 
类 型 ”元 素 ,type 属性 的 取 值 是 XML W3C 标准 规定 的 简单 数据 类 型 。 表 9.1 列 出 了 和 铺 
用 的 XML W3C 标准 规定 的 简单 数据 类 型 。 

表 9.1 内 建 的 简单 数据 类 型 
类 型 摘 述 


byte 占 1 个 字 节 的 整数 

short 占 2 个 字 节 的 整数 

int 占 4 个 字 节 的 整数 

long 占 8 个 字 节 的 整数 

float 单 精 度 浮 点 数 

double 双 精 度 浮 点 数 

string 字符 串 数据 

date 用 yyyy-mm-dd 形式 表示 的 日 期 
time 用 hh:mm:ss 形式 表示 的 时 间 
boolean true,1,false,0 四 个 值 

integer 整数 ,不 限制 大 小 
negativelnteger 负 整 数 , 不 限制 大 小 
nonNegativelnteger 韭 负 整数 ,不 限制 大 小 
positivelnteger 正 整数 ,不 限制 大 小 
nonPositivelnteger 韭 正 整 数 , 不 限制 大 小 


unsignedByte 
unsignedShort 
unsignedlInt 


unslgnedLong 


占 1 个 字 节 的 无 符号 整数 
占 2 个 字 节 的 无 符号 整数 
占 4 个 字 节 的 无 符号 整数 
占 8 个 字 节 的 无 符号 整数 
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在 下 面 的 例 2 中 ,XML 文件 example9_2. xml 中 的 “列车 "标记 有 三 个 子 标 记 :“ 车 
次 >”“ 始 发 时 间 ” 和 ”车厢 数目 ,要 求 XML 文件 符合 schema9 2. xsd 模式 “名 称 ? 是 
string 类 型 数据 ”“ 始 发 时 间 ? 是 time 类 型 数据 ,“ 车 朋 数 日 ”是 positiveInteger 类 型 数据 。 
【 例 2】 


example9 2. xml 


<?xml version= "1.0" encoding = "UTF— 8" ?> 
< 列车 列表 > 
< 列车 > 
< 车 次 > T89 次 </ 车 次 > 
< 始 发 时 间 > 12:56:00</ 始 发 时 间 > 
< 车 厢 数 目 > 18 </ 车 厢 数 目 > 
</ 列 车 > 
< 列车 > 
< 车 次 >K37 </ 车 次 > 
< 始 发 时 间 > 22:12:00 </ 始 发 时 间 > 
< 车 厢 数 目 > 16 </ 车 厢 数 目 > 
</ 列 车 > 
</ 列 车 列表 > 


schema9 2. xsd 


<xsd:schema xmlns:xsd = "http://www.w3.org/2001/XMLSchema"> 
<xsd:element name =" 列 车 列表 " > <! -- 对 根 标 记 的 约束 --> 
<xsd:complexType> 
<xsd: sequence > 
<xsd:element ref =" 列 车" minOccurs = "1" maxOccurs = "12" /> 
</xsd: sequence> 
</xsd:complexType > 
</xsd:element > 
<xsd:element name = "列车 " > <! -- 对 列车 标记 的 约 东 -一 > 
<xsd:complexType> 
<xsd: Sequence > 
<xsd:element ref = "车 次 "/> 
<xsd:element ref =" 始 发 时 间 "/> 
<xsd:element ref = "车 厢 数 目 "/> 
</xsd: sequence> 
</xsd:complexType > 
</xsd:element > 
<xsd:element name = "车 次 " type = "xsd: string"/> <! -对 车 次 标记 的 约束 --> 
<xsd:element name =" 始 发 时 间 " type = "xsd:tine"/> <! -- 对 始 发 时 间 标 记 的 约束 --> 
< xsd:element name = "车 朋 数 日 " type = "xsd:positiveInteger"/><! -- 对 车 朋 数 目标 记 的 约束 -> 
</xsd: schema > 


如 果 将 例 2example9_2. xml 中 某 个 “车 厢 数 目标 记 中 的 数据 更 改 为 一 2; 将 某 个 
“ 始 发 时 间 ?” 更 改 为 11:61:10, 将 导致 不 符合 模式 的 错误 。 用 9.3 节 例 1 提供 的 Java 程 
序 进 行 验证 (需要 简单 修改 Java 文件 中 模式 文件 和 XML 文件 的 名 字 ) ,将 检查 出 这 些 
错误 。 
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Schema 模式 中 的 简单 元 素 可 以 通过 指定 fixed 属性 的 值 约束 XML 标记 包含 的 文本 
内 容 必 须 是 fixed 属性 的 值 ,例如 : 


<xsd:element = "报警 电话 " type = xsd:string fixed= "110" /> 


约束 名 字 是 "报警 电话 的 XML 标记 包含 的 文本 内 容 必 须 是 110”。 


9.5 复 淋 类 型 元 系 


对 于 XML 文件 中 有 子 标记 的 标记 ,XML Schema 模式 可 以 使 用 “复杂 类 型 ”元 素来 
给 予 约束 。 “复杂 类 型 "元素 中 最 重要 的 部 分 就 是 “对 XML 子 标记 约束 的 元 素 ” 部 分 ,如 
果 该 "复杂 类 型 "元素 想 约 束 name 属性 指定 的 标记 顺序 地 出 现 几 个 子 标记 ,那么 就 可 以 
使 用 sequence 子 标记 ,并 且 在 sequence 子 标记 中 引用 全 局 元 素 ( 使 用 ref 属性 ) 对 XML 
子 标记 进行 约束 ,格式 如 下 : 


<xsd:element name = "标记 名 称 " > 
<xsd:complexType > 
<xsd: sequence > 
<xsd:element ref = " 子 标记 1" /> 
<xsd:element ref = " 子 标记 2" /> 


<xsd:element ref = " 子 标记 2" /> 
</xsd: sequence > 
</xsd:complexType > 
</xsd:element > 


带 ref 属性 的 元 素 作 用 是 。 指 定 当 前 element 元 素 约 束 的 标记 的 子 标记 的 名 称 ,对 该 
子 标记 的 约束 引用 全 局 元 素 。 

如 果 该 复杂 类 型 "元素 想 约束 name 属性 指定 的 标记 出 现 几 个 子 标记 ,但 不 约束 它 
们 出 现 的 先后 顺序 ,那么 就 可 以 使 用 all 子 标记 ,并 且 在 all 子 标记 中 引用 全 局 元 素 ( 使 用 
ref 属性 ) 对 XML 子 标记 进行 约束 ,格式 如 下 : 


<xsd:element name = "标记 和 名称" > 
<xsd:complexType > 
<xsd:all > 
<xsd:element ref = " 子 标记 1" /> 
<xsd:element ref = " 子 标记 2" /> 


<xsd:element ref = " 子 标记 2" /> 
</xsd:all > 
</xsd:complexType > 
</xsd:element > 


注意 : 如 果 约 束 XML 标记 只 出 现 一 个 子 标 记 , 则 在 Schema 模式 的 “复杂 类 型 ”元 素 
中 可 以 省 略 sequence 子 标记 或 all 子 标记 。 
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如 果 对 子 标记 的 约束 不 想 引 用 全 局 元 素 , 或 没有 约束 该 子 标 记 的 全 局 元 素 , 对 子 标记 
约束 的 元 素 还 可 以 是 一 个 "复杂 类 型 ?元素 。 例 如 : 


<xsd:element name =" 标 记名 称 " > 
<xsd:complexType > 
<xsd:sequence> 
<xsd:element name = " 子 标记 1" > 
<xsd:complexType > 


</xsd:complexType > 
</xsd:element > 
<xsd:element name = " 子 标记 2" > 
<xsd:complexType > 


</xsd:complexType > 
</xsd:element > 
</xsd: sequence > 
</xsd:complexType > 
</xsd:element > 


在 下 面 的 例 3 中 ,模式 使 用 “复杂 类 型 "元素 约 束 XML 文件 中 的 标记 。 
【 例 3】 


example9 3. Xml 


<?xml version= "1.0” encoding= "UTF - 8”?> 
< 产品 > 
< 电视 机 > 
< 价钱 > 5678 </ 价 钱 > 
< 重量 > 23. 87 </ 重 量 > 
</ 电 视 机 > 
< 洗衣 机 > 
< 价钱 > 5976 </ 价 钱 > 
< 重量 > 34 </ 重 量 > 
</ 洗 衣 机 > 
</ 产 品 > 


schema9 3. xsd 
<xsd:schema xmlns:xsd = "http://www.w3.org/2001/XMLSchema"> 


<xsd:element name = "产品 ”> 
<xsd:complexType> 
<xsd: sequence > 
<xsd:element ref = "电视 机 " /> 
<xsd:element name = "洗衣 机 ”> 
<xsd:complexType> 
<xsd: Sequence > 
<xsd:element ref = "价钱 " /> 
<xsd:element name= "重量 " type = "xsd: int"/> 
</xsd:sequence> 
</xsd:complexType > 
</xsd:element > 
</xsd: sequence > 
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</xsd:complexType > 
</xsd:element > 
<xsd:element name = "电视 机 "> 
<xsd:complexType > 
<xsd:sequence> 
<xsd:element ref = "价钱 " /> 
<xsd:element ref = "重量 "/> 
</xsd: sequence > 
</xsd:complexType > 
</xsd:element > 
<xsd:element name = "价钱 " type = "xsd: int"/> 
<xsd:element name = "重量 " type = "xsd:float"/> 
</xsd: schema > 


“复杂 类 型 元 素 的 特殊 情况 能 代替 “简单 类 型 元素 。 例 如 ,对 于 “简单 类 型 元素: 


<xsd:element name = "姓名 "type = "xsd:string"> 
下 列 " 复 杂 类 型 ?元素 的 作用 和 它 相 同 : 


<xsd:element name = "姓名 ”> 
<xsd:complexType > 
<xsd:simpleContent > 
<xsd:extension base = "xsd:string" /> 
</xsd:simpleContent > 
</xsd:complexType > 
</xsd:element > 


Schema 模式 中 的 “复杂 类 型 ”元 素 在 约束 子 标 记 出 现 的 次 数 时 ,通过 指定 minOccurs 
属性 或 maxOccurs 属性 的 值 约束 XML 标记 出 现 的 次 数 , 例 如 : 


<xsd:complexType> 
<xsd:sequence> 
<xsd:element ref = "列车 " minOccurs = "1" maxOccurs = "12" /> 
</xsd: sequence > 
</xsd:complexType > 


约束 名 字 是 “列车 ”的 XML 标记 最 少 要 出 现 1 次 ,最 多 可 出 现 12 次。 而 


<xsd:complexType> 
<xsd:sequence> 
<xsd:element ref = "列车 " minOccurs = "0" maxOccurs = "unbounded" /> 
</xsd: sequence > 
</xsd:complexType > 


约束 名 字 是 “列车 ”的 XML 标记 可 以 不 出 现 次 数 , 如 果 出 现 ,出 现 的 次 数 没 有 限制 。 


9.6 属 性 


对 于 XML 文件 中 的 属性 ,XML Schema 模式 使 用 “attribute” 标 记 来 约束 ,该 标记 的 
格式 如 下 : 
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< xsd:attribute name = "属性 名 字 " type = "基本 数据 类 型 " use= "条 件 ”/> 


其 中 use 可 取 值 required optional fixed default。 
attribute 标记 必须 在 “复杂 类 型 ?元素 中 使 用 ,指出 “复杂 类 型 ?元素 约束 的 XML 标 
记 应 当 有 怎样 的 属性 。 例 如 ,对 于 : 


<xsd:element name =" 姓 名" > 
<xsd:complexType > 
<xsd:simpleContent > 
<xsd:extension base = "xsd:string”> 
<xsd:attribute name = "学 号" type = "xsd:int" use= "required" /> 
</xsd:extension> 
</xsd:simpleContent > 
</xsd:complexType> 
</xsd:element > 


该 “复杂 类 型 ”元素 中 使 用 了 attribute 标记 ,约束 “姓名 ”标记 必须 要 有 “学 号 ”属性 。 
在 下 面 的 例 4 中 ,模式 使 用 attribute 标记 约束 XML 标记 的 属性 。 
【 例 4】 


example9 4. xml 
<?xml version= "1.0" encoding= "UTF— 8" ?> 
< 产品 信息 > 
< 产品 grade = "1"> 
< 名 称 语言 = "汉语 "> 电视 机 </ 名 称 > 
< 价钱 单位 =" 人 民 币 "> 5237 </ 价 钱 > 
</ 产 品 > 
< 产品 grade = "2"> 
< 名 称 语言 = "英语 "> Radio </ 名 称 > 
< 价钱 单位 = "欧元 "> 176 </ 价 钱 > 
</ 产 品 > 
</ 产 品 信息 > 


schema9 4. xsd 


<xsd:schema xmlns:xsd = "http://www.w3.org/2001/XMLSchema"> 
<xsd:element name =" 产 品 信 息 " > 
<xsd:complexType> 
<xsd: sequence> 
<xsd:element ref = "产品 " minOccurs = "1" maxOccurs= "8" /> 
</xsd: sequence > 
</xsd:complexType > 
</xsd:element > 
<xsd:element name = "产品 ”> 
<xsd:complexType > 
<xsd:sequence> 
<xsd:element ref = "名 称 " /> 
<xsd:element ref = "价钱 " /> 
</xsd:sequence> 
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<xsd:attribute name = "grade" type = "xsd:int" use= "required" /> 
</xsd:complexType > 
</xsd:element > 
<xsd:element name = "名 称 " > 
<xsd:complexType > 
<xsd:simpleContent > 
<xsd:extension base = "xsd:string" > 
<xsd:attribute name = "语言 " type = "xsd:string" use = "required" /> 
</xsd: extension > 
</xsd:simpleContent > 
</xsd:complexType > 
</xsd:element > 
<xsd:element name = "价钱 ”> 
<xsd:complexType > 
<xsd:simpleContent > 
<xsd:extension base = "xsd:int" > 
<xsd:attribute name = "单位 "type = "xsd:string" use = "required" /> 
</xsd: extension > 
</xsd:simpleContent > 
</xsd:complexType > 
</xsd:element > 
</xsd: schema > 


如 果 将 example9_4. xml 中 某 个 “grade” 属 性 的 属性 值 更 改 为 “一 级 ”, 将 导致 不 符合 
模式 的 错误 ,因为 grade 属性 被 模式 约束 的 类 型 是 int; 如 果 将 “example9_4. xm 中 某 个 
“名 称 ” 的 “语言 "属性 省 略 , 也 将 导致 不 符合 模式 的 错误 ,因为 “语言 "属性 被 模式 约束 为 必 
须要 有 的 。 用 9. 3 节 例 1 提供 的 Java 程序 进行 验证 (需要 简单 修改 Java 文件 中 模式 文件 
和 XML 文件 的 名 字 ) ,将 检查 出 这 些 错 误 。 


站 题 9 


1. 将 例 1 中 “生产 日 期 "的 数据 写成 1996-04-23 是 否 可 以 ? 

2. 将 例 2 中 “ 始 发 时 间 ” 的 数据 写成 9:12:23 是 否 可 以 ? 

3. 编写 一 个 关于 职员 工资 信息 的 XML 文件 ,使 用 模式 约束 "月薪 ”标记 必须 是 float 
型 数据 。 


